英文原题:Collective Variable-Based Enhanced Sampling: From Human Learning to Machine Learning
通讯作者:邵学广、蔡文生,南开大学化学学院分析科学研究中心
作者:Haohao Fu (付浩浩), Hengwei Bian (卞恒伟), Xueguang Shao (邵学广), Wensheng Cai (蔡文生)
增强采样是一种重要的分子动力学(Molecular Dynamics,MD)模拟技术,克服了传统MD因时间尺度限制而无法观察到稀有事件的问题。在基于集合变量(Collective Variable,CV)的增强采样方法——如伞状采样(US)、自适应偏置力(ABF)和metadynamics中,选择能够描述慢自由度的CVs对于增强采样模拟的可靠性和效率至关重要。然而,很多情况下仅凭化学和空间直觉难以选择最为合理的CVs。
近日,南开大学邵学广、蔡文生教授课题组在JPC Letters上发表了CV选择方法的展望研究。目前,针对一个复杂的生物/化学过程,采用基于CV的增强采样方法进行研究的范式分为三种:基于人类知识进行CV选择的范式、基于反应路径优化的范式和基于机器学习CV的范式,如图1所示。
图1. 基于CV的增强采样方法对复杂生物/化学过程进行研究的三种范式。
基于人类知识进行CV选择简单、直观,通常是研究人员的首选。但是对于复杂过程,如蛋白质折叠,研究人员很难选择能够描述缓慢自由度的几何变量作为CVs。
路径搜索算法,如transition path sampling (TPS), milestoning和string方法,可以在一个高维、预先选择的CV(pre-CV)空间中进行优化,得到最低自由能路径(MFEP)。然后再通过路径反应坐标和增强采样算法进行模拟,得到描述对应过程的自由能面。然而,大多数路径搜索算法需要用户提供一个初始路径,并且极易陷入局部极小值。
图2. 路径搜索算法示意图。(A)初始路径[灰]和优化得到的最低自由能路径[黄];(B)初始路径[灰],优化陷入的局部极小值[青]和最低自由能路径[黄]。
基于机器学习的方法从短时间的预模拟轨迹中提取信息,寻找能够描述极小值和过渡态的机器学习CVs(mCVs)。mCVs通常也代表高维pre-CV空间中的曲线(路径)或曲面,如图3所示。
图3. 机器学习CV示意图。(A)自由能面;(B)对不完备的训练集[粉]学习得到的mCVs所代表的路径[黑];(C)对较完备的训练集[粉]学习得到的mCVs所代表的路径[黑]。
基于机器学习的方法有两个问题:1、如何从短时间的轨迹中提取信息,提取什么样的信息。针对这个问题,目前许多方法都基于时间自相关函数和过渡路径理论来提取信息,此外还有基于聚类的信息提取方法。2、“鸡和蛋”的问题,得到好的mCV需要充分采样得到较完备的训练集,但是如果已经充分采样了,就不需要mCV做增强采样模拟了。针对这个问题,迭代策略是一种常见的解决方案,此外还有基于次优mCV,提高正交空间采样的方案。
随着GPU计算能力的提升,MD模拟的体系复杂度不断增加,使用基于化学直觉确CVs来研究生物/化学过程变得越来越有挑战。研究者可能会更多地依赖于非经验性方法来选择CVs。在路径采样和部分机器学习方法中,通过迭代短时间的模拟,可以自适应确定CVs。这种流程只需要少量先验知识,已成功应用于许多复杂过程的研究。
结合路径采样和机器学习的方法实现更高的采样效率可能是未来的研究方向。此外,从AlphaFold2这种预训练模型或者GPT-4这种大语言模型中提取信息,进一步提升机器学习效率,也非常具有前景。
相关论文发表在JPC Letters上,南开大学副研究员付浩浩为文章的第一作者,邵学广、蔡文生教授为通讯作者。
邵学广,南开大学教授、博士生导师,国家杰青,于中国科学技术大学获博士学位。主要从事化学计量学方法与应用研究,最近的研究重点是开发人工智能方法并将其应用于光谱分析和分子模拟。
蔡文生,南开大学教授、博士生导师,于中国科学技术大学获博士学位,之后在法国南希大学进行博士后研究。主要从事分子动力学模拟算法和自由能计算方法开发工作。
原创文章,作者:计算搬砖工程师,如若转载,请注明来源华算科技,注明出处:https://www.v-suan.com/index.php/2024/03/26/2f94f6771a/