TSDiff 预测分布的概念说明。(来源:论文)
编辑 | X
过渡态(TS)探索对于阐明化学反应机制和动力学建模至关重要。最近,机器学习模型在 TS 几何形状(geometries)预测方面表现出了卓越的性能。然而,它们通常需要反应物和产物的 3D 构象,并以其适当的方向作为输入,这需要大量的努力和计算成本。
近日,韩国科学技术院(KAIST)的研究人员提出了一种基于随机扩散方法的生成方法,即 TSDiff,用于仅从 2D 分子图预测 TS 几何形状。TSDiff 在准确性和效率方面均优于现有的具有 3D 几何形状的 ML 模型。
此外,它能够对各种 TS 构象进行采样,因为它在训练中学习不同反应的 TS 几何分布。因此,与参考数据库相比,TSDiff 能在较低的势垒高度找到更有利的反应途径。这些结果表明,TSDiff 在高效、可靠的 TS 探索方面显示出巨大的潜力。
该研究以「Diffusion-based generative AI for exploring transition states from 2D molecular graphs」为题,于 2024 年 1 月 6 日发布在《Nature Communications》上。
过渡态研究现状
过渡态是指一种瞬态分子构型,位于反应物通过最小能量路径到达产物的能垒之上,对应于势能面(PES)上的鞍点。识别 TS 是化学反应分析中的一项重要任务。尽管 TS 几何形状由于其瞬态性质而难以通过实验观察,但可以使用量子化学计算方法获得它们。
在过去的几十年里,开发了各种 TS 优化技术并应用于许多化学反应,从而提供了对不同化学现象的见解。
TS 优化方法主要有两大类:单端方法和双端方法,具体取决于输入类型。前者依赖于一组反应物的 3D 几何形状或估计的 TS。双端方法利用反应物和产物的 3D 几何形状。虽然这些传统方法在实践中被广泛使用,但它们需要大量的计算成本,并且经常出现收敛问题,使得 TS 探索成为一项相当艰巨的任务。
最近,人们对使用机器学习 (ML) 方法来研究 TS 越来越感兴趣,目的是降低传统方法的高成本。例如,已经进行了大量研究来直接估计势垒高度。然而,该研究重点关注 TS 几何形状的预测。
传统方法和机器学习方法都需要为 3D 分子几何形状进行适当的输入准备。然而,众所周知,传统方法的结果对输入结构很敏感。机器学习方法还采用反应物和产物的 3D 构象作为输入。因此,它们不可避免地会遇到相同的输入灵敏度问题。
随机生成模型:TSDiff
为了解决这个问题,KAIST 研究人员提出了这是一种机器学习模型——TSDiff,可以学习 TS 构象和 2D 分子图之间的直接映射。因此,人们可以跳过构象和方向的正确选择。
此外,TSDiff 可以采用随机扩散方法从 2D 图中生成各种可能的 TS 构象,可靠性高。因此,TSDiff 可以在整个 TS 生成过程中最大限度地减少用户的工作量,并在不直接考虑构象的情况下探索多种反应途径,从而实现高效率。
研究人员使用 Grambow 的数据集评估了 TSDiff 的性能。尽管简化了 2D 图的输入,但与依赖 3D 几何信息的现有方法相比,TSDiff 的准确率最高。
TSDiff 是一个随机生成模型,这意味着每次采样都会生成不同的几何形状。TSDiff 生成的不同几何形状对应于可以从相同的 2D 反应图构建的特定 TS 构象。例如,下图显示了与测试集中三个反应的特定构象和参考几何形状相对应的几个生成的几何形状。
通过基于 DFT 的量子化学计算验证了 TSDiff 生成的多个 TS 构象的有效性。首先,对生成的几何形状进行鞍点优化,得到具有单一虚振动频率的 TS 几何形状。随后进行内禀反应坐标 (IRC) 计算,以验证 TS 几何形状是否对应于给定的图定义的反应。TSDiff 在此验证中取得了 90.6% 的极高成功率,显示了其作为初始 TS 几何猜测器的可靠性。
基于这些结果,研究人员表示:「我们期望 TSDiff 能够极大地减轻 TS 探索过程中耗时的试错过程。我们还在鞍点发现了 2303 个新的 TS 构象,而不是使用 TSDiff 对测试集中的 1197 个反应进行八轮采样。其中一些对应于比参考文献更低的势垒高度,表明更有利的反应途径。」
未来潜力
TSDiff 的主要优点之一是它能够在不考虑反应物和产物的构象及其排列的情况下找到 TS。由于 TSDiff 不依赖于特定构象,因此它允许使用更通用的方法在图定义的反应中有效探索 TS。
TSDiff 能够有效捕获非反应坐标和不同反应坐标中可旋转键产生的 TS 构象。此外,TSDiff 也被证明是一个有效的初始 TS 猜测器,在后续 TS 优化过程中只需要少量的强制调用。总的来说,该研究结果证明了 TSDiff 作为高效可靠的 TS 探索的有前途的方法的潜力。
这些发现表明,随机扩散方法可以在平衡状态下准确地创建多种构象异构体,可扩展到 TS 探索。
然而,研究也有局限性,特别是它目前对有机反应的限制。尽管存在无机数据库,但缺乏大型无机反应数据库限制了机器学习方法在该领域的适用性。
随着未来数据的不断积累,研究人员表示 TSDiff 的用途将扩大到涵盖更广泛的化学反应,包括涉及无机物质的化学反应。
原创文章,作者:计算搬砖工程师,如若转载,请注明来源华算科技,注明出处:https://www.v-suan.com/index.php/2024/01/12/8c3e95acfd/