刘斌/王笑楠Adv. Sci.:机器学习辅助准确预测聚合时的分子光学特性

研究背景

对于实际应用,分子通常以聚集态存在,因此预测分子在形成聚集体时的性能(如聚集诱导发光 (AIE) 或聚集荧光猝灭 (ACQ))具有重要价值。AIE是2001年首次提出的概念,用于描述聚集体形成时分子种类的异常发光增强,具有AIE行为的发光体被称为AIEgens。

设计新AIEgen的关键是从其分子结构预测AIE特性,这需要对AIE现象有高度的结构-特性理解。考虑到AIE现象的多重因素和背后机制的复杂性,机器学习(ML)极有可能提高目前对AIE的理解,为AIE的性质预测做出贡献。通过人工智能 (AI) 系统精确预测AIE特性,即使是没有经验的AIE研究人员也能够在未知的分子空间中设计具有AIE特性的分子结构。
刘斌/王笑楠Adv. Sci.:机器学习辅助准确预测聚合时的分子光学特性

研究简介

在此,新加坡国立大学刘斌教授、王笑楠教授等人首次建立了一个包含文献报道的356个AIE/ACQ分子的数据库。通过训练,这些机器学习 (ML) 模型可以建立结构-特性关系,从而实现对AIE/ACQ特性的快速预测。作者提出了一种多模态方法,通过比较和设计多种预测方法开发了集成策略。首先,同时考虑多个分子描述符,通过降维提取主要特征合成多模态特征。然后,设计并比较了几种最先进的方法以分析不同方法的优点。最后,集成策略综合了多种方法的优点,得到最终的预测结果。三个新设计的分子进一步验证了这种方法在未知分子空间中的可靠性,获得了模型预测和实验结果之间的合理一致性。

结果表明ML可以成为预测聚集态分子性质的有力工具,从而加速固态光学材料的发展。该成果以“Machine-Learning-Assisted Accurate Prediction of Molecular Optical Properties upon Aggregation”为题发表在Advanced Science(IF=16.806)上。

刘斌/王笑楠Adv. Sci.:机器学习辅助准确预测聚合时的分子光学特性
图1. ML辅助AIE/ACQ特性预测和新设计分子的实验验证流程图

图文详情

1. 整体ML辅助预测流程

作者在文献中收集到356个分子用于模型训练,然后进行实验分析以证明这些方法的有效性。首先使用分子描述符来表征分子,这是分子ML中的一个关键问题。在这项工作中,两类分子描述符被用作预测分子性质的不同模式,即定量描述符和定性描述符。通过这种方式,可以同时考虑分子的定量和定性特性。然后,提出了五种流行的ML方法来预测分子是否具有AIE特性,包括逻辑回归 (LR)、K-最近邻(KNN)、梯度提升 (GB)、随机森林 (RF) 和多层感知器 (MLP)。
作者还提出了一种融合表决策略来整合不同方法和模式的结果,并将整合的结果作为最终的预测输出。为了比较和评估算法的有效性,采用了一些包括准确性、曲线下面积 (AUC) 和F1分数在内的评估指标。在实验中,十倍交叉验证用于评估具有不同描述符的不同方法,在训练集上使用了五重交叉验证来选择超参数。实验结果表明,融合表决策略比单一分类模型更稳健。
2. 单模态与多模态训练
基于定性和定量描述符的不同方法的单独测试策略称为单模态训练,其中定性描述符考虑5种指纹并编码2048位长度,定量描述符使用108维特征。作者展示了基于多模态描述符的五种不同方法的单模态和多模态的平均结果和集成方法的混杂矩阵,多模态是指将两类描述符组合成一个特征向量进行训练。首先使用主成分分析 (PCA) 对2048维指纹特征进行降维,目的是使指纹和定量描述符具有更紧密的维度,避免专注于一种模式。经过这个过程,得到了356维特征,但保留了原始数据的所有信息。此外,还对定量描述符进行z-score标准化,以便它们与PCA无量纲数据具有相同的尺度。因此,对于多模态数据,特征维度为464 (356 + 108)。
刘斌/王笑楠Adv. Sci.:机器学习辅助准确预测聚合时的分子光学特性
图2. 基于多模态策略的不同方法的结果
结果显示,多模态预测普遍优于单模态。其中,LR算法的结果比较接近,因为线性回归方法对特征的拟合有限。当数据为非线性时,很难实现更大的改进及处理数据不平衡问题。KNN的结果没有显著改善,这是因为存在维数灾难问题,对少数类别的预测精度较低。GB、RF和MLP的结果得到了明显提升,因为信息丰富的特征在复杂方法中发挥了更大的作用。GB在三个训练特征集上得到了完全正确的结果,但在测试集上的结果不如RF,这进一步说明GB在训练集上存在过拟合。RF算法在Daylight指纹+定量描述符的测试集中取得了最佳性能,这表明两种模态特征的融合提高了分类空间的可分离性。MLP的结果是Daylight指纹中最好的,与单模态结果类似。可以看出,Daylight指纹的特征编码方式更适合本文数据,与单模态相比,具有多模态数据的集成方法有了明显的改进。
3. 模型预测的实验验证
为了验证模型预测新分子结构的能力,作者设计了三种潜在的与任何报道的不同结构的AIEgens。根据已知的AIE机制,化合物1和2应该表现出相似的AIE/ACQ 特性。然而,模型预测化合物1是ACQ分子,而2是AIE分子。滴定结果表明,化合物1和2分别显示出ACQ和AIE特性,与ML预测一致。接下来,用羰基取代了2的二氰基得到了化合物3。很明显,化合物2的三元氨基环在其AIE行为中起着至关重要的作用,因此推断化合物3也应具有AIE特性,但ML模型预测化合物3是 ACQ分子。为了验证预测,作者合成了化合物3并进行了相同的AIE特性研究,结果表明化合物3是ACQ分子,这表明模型在预测优于人类感知的新结构方面具有出色的准确性。此外,只有多模态集成和单模态RF的预测结果是完全正确的,且单模态RF在测试集上的结果不如多模态集成。这表明多模态集成更稳健,对于不同的数据类型同时具有预测和探索能力。
刘斌/王笑楠Adv. Sci.:机器学习辅助准确预测聚合时的分子光学特性
图3. 模型预测新分子结构能力的实验验证

总  结

作者基于从文献中收集的包含356个AIE/ACQ分子的数据库,使用5种指纹和定量描述符等小分子的各种编程语言表达来构建ML模型,预测不同荧光团的AIE/ACQ特性。其中,所提出的多模态集成方法实现了最佳和最稳健的性能。该策略考虑了多个描述符的特性,并结合了多种方法的推理优势。因此,它不仅可以学习现有的分子结构,还具有预测未知结构的能力。该ML模型在预测全新分子方面的可靠性得到了进一步证明,证明了可以通过结合ML方法和实验分析来帮助AIEgen设计。

文献信息

Machine-Learning-Assisted Accurate Prediction of Molecular Optical Properties upon Aggregation, Advanced Science 2021. DOI: 10.1002/advs.202101074

https://onlinelibrary.wiley.com/doi/10.1002/advs.202101074

原创文章,作者:科研小搬砖,如若转载,请注明来源华算科技,注明出处:https://www.v-suan.com/index.php/2023/10/11/db87871473/

(0)

相关推荐