npj.Comput.Mater：速度提升155倍！机器学习加速表面吸附构型的全局优化

研究背景

分子在催化剂表面的吸附强度是影响催化反应活性的关键描述符。然而，在很多催化反应（如合成气转化）中，会产生大量的反应中间体，反应势能面更加复杂。这进一步导致了所研究的吸附几何构型存在很大的不确定性，寻找最优的吸附构型是一个耗时且困难的全局优化问题。

针对这个难题，弗里茨·哈伯研究所（隶属于德国马克斯·普朗克科学促进学会）Johannes T. Margraf团队提出了一种基于机器学习的自动化全局优化协议，用于确定最佳的表面吸附物构型。该方法适用于任意表面模型，并通过迭代地更新模型所配置的训练集，从而最小化人为干预和所需的DFT计算成本。

结论与展望

全局优化协议的流程如图1（a）所示，包含三个部分：

第一部分：使用极小值跳跃（Minima hopping，MH）方法来生成训练数据集，经过少量的DFT验证后，实现迭代式的Gaussian approximation potentials （GAP）优化；

第二部分：通过MH并行模拟产生大规模的具有能量极小值的构型；

第三部分：使用核主成分分析（KPCA）和K-Means聚类产生最终的候选构型，使用DFT进行优化。

npj.Comput.Mater：速度提升155倍！机器学习加速表面吸附构型的全局优化

图1. （a）流程框架图；（b）建模约束与DFT优化策略；（c）数据采样策略

该流程采用吸附分子和经过优化的基底结构作为输入。作者首先使用了SMILES字符串来表示吸附分子，并使用RDkit包中的MMFF力场来优化气相下的吸附分子。MMFF力场是基于半经验的，但是避免了非物理基础，保留了化学键拓扑规则（Hookean约束）。将吸附分子放置在基底表面所得到的构型作为GAP模型的初始训练集。很显然，基于单个吸附构型得到的机器学习势的精度很低，难以找到势能面上的全局最优点。

尽管如此，这些构型对于提升GAP，寻找势能面中的高能量区域是有帮助的。对于生成的构型，作者采用分层的最远点采样方法（stratified FPS），从中挑选出5个结构进行DFT计算。所得到的计算结果除了为下一个GAP模型提供训练数据外，还用于估计当前GAP的外推误差。

作者提出了基于均方根误差的Exponential moving average（EMA）方法来估计DFT与GAP的能量与原子受力的偏差，以Rh<211>表面吸附CH₂CO分子为例得到的GAP收敛趋势如图2所示。当GAP的能量偏差小于8meV/atom、原子受力偏差小于0.15eV/Å时，则认为GAP模型收敛。

图2. 模型收敛评估，红色表示均方根误差，蓝色表示均方根误差的EMA

经过收敛，该迭代式训练过程产生了一套假定的形成能极小值所对应的构型。然而，基于初始迭代和训练，这些构型的精度和质量相当低。因此，收敛的GAP模型被用于更为大规模的MH模拟。

这里，作者使用了一个并行的MH模拟方法，其中产生了许多独立的MH模拟，并同时探索势能面的不同区域，共享访问能量最小值的信息，如图3所示。

由于全局最小结构通常是先验未知的，因此决定何时终止并行MH运行是不确定的。为此，作者采用了类似于MD模拟的终止策略，每个MH进程使用独立的温度进行模拟，当温度达到初始温度的两倍或超过最大迭代次数时终止。在并行MH方法中，由于几个MH模拟通常会落在势能面的重叠区域，重新发现附近先前发现的最小值，收敛的速度得到了极大的提升。

图3. 并行MH模拟架构

由于并行MH模拟尝试对吸附分子和结合位点空间进行详尽的探索，这通常会得到势能面上极小值的吸附构型。然而，这些都是GAP 上的最小值点，同时还受到吸附分子的Hookean约束。

为此，作者提出了进一步的构型筛选策略用于DFT计算。对于这些构型，作者将其Smooth Overlap of Atomic Positions（SOAP）向量的均值作为输入进行KPCA降维（可视化如图4所示），并通过K-Means（K=10）进行构型聚类，依据GAP，选择类中最低形成能的构型用于DFT优化。

图4. 吸附构型的筛选策略，图的左上角给出了2D的KPCA可视化，并标注了每个类中的最低形成能构型；图的右上角描述符了构型的形成能；图的下方给出了5个典型的构型

为了证明所提出的工作流程在多相催化中的适用性，作者使用了13个分子在Rh<111>上吸附和5个分子在Rh<211>上吸附的两组案例进行验证，如图5所示。通过与Yang等人之前的研究结果对比，作者发现所提出的流程可以找到相似甚至更低形成能的吸附构型，这表明GAP和MH模拟的质量都足以预测DFT优化的有用初始构型。最大的差异是在Rh<211>吸附CH₃CHOH上观察到的，作者发现了一个比之前报道的最小值低0.26 eV的构型。显然，这样的能量差异对催化将有重要的影响。

此外，作者还分析了该优化流程在计算成本上的核心优势，像H₂O和CH₃这样简单的吸附只需要15-16次迭代，即使是像CH₂CO这样复杂的吸附物，整个工作流程的执行时间也不到8000核小时（on a 40 core Intel Skylake 6148 node）。相比之下，在DFT水平上执行完整的并行MH运行将需要大约155倍的计算成本。

图5. 吸附形成能与构型对比分析

结论与展望

这项工作提出了一个表面吸附的全局优化工作流程，可以使用少量的DFT计算作为参考，而无需人工干预，自动化地为任何类型的表面吸附体系生成定制的原子间势。该优化流程也在Rh<111>和<211>表面合成乙醇的重要反应中间体上进行了测试。总的来说，这项工作提出了一个稳健高效的全局优化工作流程，非常适合应用于多相催化的复杂过程。

文献信息

Jung, H., Sauerland, L., Stocker, S. et al. Machine-learning driven global optimization of surface adsorbate geometries. npj Comput Mater 9, 114 (2023).

https://doi.org/10.1038/s41524-023-01065-w

点击阅读原文，报名计算培训！

原创文章，作者：计算搬砖工程师，如若转载，请注明来源华算科技，注明出处：https://www.v-suan.com/index.php/2023/11/01/f02078b07f/

npj.Comput.Mater：速度提升155倍！机器学习加速表面吸附构型的全局优化

相关推荐