效率提高四倍,用于扩展分子的精确机器学习力场的有效原子间描述符

效率提高四倍,用于扩展分子的精确机器学习力场的有效原子间描述符

机器学习力场 (MLFF) 技术正蓬勃发展。然而,要实现现实分子的预测性 MLFF 模拟,仍有几个挑战有待解决,包括:(1) 为非局部原子间相互作用开发有效的描述符,以及 (2) 降低描述符的维度增强 MLFF 的适用性和可解释性。

卢森堡大学的研究团队提出了一种自动化方法来大幅减少原子间描述符特征的数量,同时保持准确性并提高 MLFF 的效率。研究人员发现非局部特征(在所研究的系统中原子相隔 15 Å)对于保持 MLFF 对肽、DNA 碱基对、脂肪酸和超分子复合物的整体准确性至关重要。

有趣的是,减少的描述符中所需的非局部特征的数量变得与局部原子间特征(小于 5 Å)的数量相当。这些结果为构建全局分子 MLFF 铺平了道路,其成本随系统大小呈线性增长,而不是呈二次方增长。

该研究以「Efficient interatomic descriptors for accurate machine learning force fields of extended molecules」为题,于 2023 年 6 月 15 日发布在《Nature Communications》。

效率提高四倍,用于扩展分子的精确机器学习力场的有效原子间描述符

可靠的原子力场对于研究(生物)化学系统的动力学、热力学和动力学至关重要。机器学习力场 (MLFF) 最近成为构建能量和力的原子表示的一种选择方法。

与传统的计算化学方法相反,MLFF 使用参考计算的数据集来估计函数形式,这些函数形式可以恢复分子构型与其相应的能量或力之间的复杂映射。该策略允许为从小有机分子到散装凝聚材料和界面的各种系统构建 MLFF,相对于参考从头算计算,能量预测误差低于 1 kcal mol^-1。

MLFF 的应用已经包括了解材料中电子和结构转变的起源、计算分子光谱、模拟化学反应以及模拟分子的电子激发态。尽管 MLFF 取得了这些巨大的成功,但仍然存在许多开放的挑战。例如,MLFF 模型对较大分子的适用性有限,部分原因是描述符维度的快速增长。

用于编码分子配置的描述符决定了 MLFF 捕获分子中不同类型相互作用的能力。因此,描述符旨在包含强调系统特定方面的特征,或强调不同材料之间的相似化学/物理模式。学界已经提出了许多不同的描述符来为广阔的化学空间的特定子集构建成功的 MLFF。但是,不能保证给定的描述符能够准确描述表征柔性分子系统的高维势能面(PES)中的所有相关特征。这里的主要挑战是平衡给定 ML 模型所需的特征数量,从而描述短期和长期交互之间的相互作用。

理论上,ML 模型应该能够正确描述 (i) 远程交互的非可加性,(ii) 这种交互对交互对象环境的强烈依赖性,(iii) 导致远程相互作用的多尺度性质的非局部反馈效应。解决这些特征需要开发灵活且同时准确高效的 MLFF,而无需使用严格预定义的交互功能形式或强加特征长度尺度。

或者,可以切换到所谓的全局描述符,例如库仑矩阵,其中考虑了所有原子间距离。不幸的是,这样的全局描述符与系统大小呈二次方关系。此外,减少全局模型中的描述符维数是一个未解决的挑战。

为了应对这些挑战,卢森堡大学的研究团队提出了一种自动程序,用于识别与大型和柔性分子的描述最相关的全局描述符中的基本特征。

效率提高四倍,用于扩展分子的精确机器学习力场的有效原子间描述符

图示:描述符缩减方案概述。(来源:论文)

研究人员应用开发的方法来识别各种目标系统的有效表示,包括小分子、超分子复合物和所有四大类生物分子(即蛋白质、碳水化合物、核酸和脂质)的单位:阿司匹林(21 个原子)、「巴基捕手」(148 个原子)、丙氨酸四肽(Ac-Ala3-NHMe,42 个原子)、乳糖二糖(45 个原子)、腺嘌呤-胸腺嘧啶 DNA 碱基对(AT-AT,60 个原子)、棕榈酸脂肪酸(50 个原子)。使用减少的描述符可以提高预测准确性,并将计算效率提高两到四倍。

效率提高四倍,用于扩展分子的精确机器学习力场的有效原子间描述符

图示:减少描述符的模型的准确性。(来源:论文)

大分子的高效建模需要低维度的描述符,其中包括特定预测任务的相关特征。新方法除了提高效率之外,与使用默认全局或局部描述符构建的模型相比,此类描述符还提高了 ML 模型的准确性。这是简化了应该由 ML 模型在缩小的描述符空间中学习的交互模式的结果。由此产生的 MLFF 允许进行长时间的分子动力学模拟,从而证明在训练集中表示的 PES 区域中的稳定行为。

对与准确能量/力预测相关的非局部描述符特征的详细分析显示了非平凡的模式。这些模式与分子结构和组成有关,平衡了与描述符特征相关的相互作用强度和这些特征提供的有关原子涨落的统计信息。研究表明,与大至 15Å 的原子间距离相关的描述符特征,可以在描述非局部相互作用中发挥重要作用。该团队列举的实例涵盖了所有四大类生物分子和超分子的单元,因此得出的结论适用于范围广泛的(生物)化学系统。

效率提高四倍,用于扩展分子的精确机器学习力场的有效原子间描述符

图示:交互模式的复杂性。(来源:论文)

这里提出的描述符缩减方案的主要应用是生成的全局描述符与原子数的线性比例。研究人员发现大分子的全局描述符被过度定义,并且可以仅使用少数描述集体远程相互作用的远程特征来构建同样准确的模型。如果有可靠的参考数据可用,这种行为似乎是大分子系统的普遍现象。

总体而言,该工作在机器学习力场的广泛领域取得了实质性突破。这些突破包括(i)展示了大型系统的全局 MLFF 线性缩放的潜力,(ii)分析有助于准确预测的非局部原子间特征,(iii)在长时间尺度分子动力学模拟中证明简化模型的准确性、效率和稳定性。因此,这是在不牺牲集体非局部相互作用的情况下为具有数百个原子的系统构建准确、快速且易于训练的 MLFF 的关键步骤。

论文链接:https://www.nature.com/articles/s41467-023-39214-w

原创文章,作者:计算搬砖工程师,如若转载,请注明来源华算科技,注明出处:https://www.v-suan.com/index.php/2024/01/22/55dec2b740/

(0)

相关推荐