Nature子刊：基于生成神经网络的结构预测与材料设计

预测稳定的晶体结构是设计高性能材料的重要环节。最新研究表明，有效的结构特征表示和生成神经网络可以创建新的稳定结构，进而用于逆向设计和搜索具有特定功能的材料。在此，阿拉巴马大学伯明翰分校Cheng-Chien Chen教授，Adam D. Smith教授和Da Yan教授等人在Nature Computational Science发表Comment文章，剖析了生成式神经网络在材料设计中的最新进展，并展望了材料设计的未来研究方向。

研究背景

当晶体结构确定时，基于量子力学的第一性原理计算可以较为精确地确定材料的物理性质。然而，对于结构未知的材料，预测其性质需要额外的晶体结构预测（Crystal structure prediction，CSP）。CSP可以确定在给定压强和温度条件下结构的吉布斯自由能最小值，从而发现在仅给定化学式（以及单位胞内原子数）时的稳态和亚稳态结构。实现这一任务需要精确的势能面计算和强大的优化算法。

典型的CSP任务通过枚举成千上万个可能的结构，并执行相应的能量计算来找到最稳定的结构。对于三元或四元（或更多元）材料，计算量非常高。因此，大规模材料发现仍然具有挑战性。最近，生成模型为解决这些挑战带来了希望。

一旦生成模型训练完成，它们可以比传统的CSP技术更快地生成新结构。然而，开发生成模型是具有挑战性的，因为它需要一个可逆的表示来将三维（3D）晶体映射到特征空间，以及完成相应的反向映射。此外，它还需要一个目标数据库，该数据库在统计上代表感兴趣的材料体系。尽管存在这些挑战，最近的一些研究已经证明了使用生成神经网络高效准确地预测新的稳定晶体结构的可行性。

生成模型

机器学习模型一般可以分为判别模型和生成模型。判别模型专注于预测数据的标签或在特征空间中确定边界，而生成模型侧重于解释数据是如何生成的，并试图对数据在整个空间中的分布进行建模。尽管判别模型可以实现晶体结构到材料性质的直接正向映射，但它们无法像生成模型那样实现逆向设计（图1a）。

本质上，生成模型学习数据本身的分布，然后从学习到的分布中采样新的数据实例，这使得探索更多样化的晶体结构成为可能。在逆向设计领域，有两种普遍的生成模型：变分自编码器（Variational autoencoder，VAE）和生成对抗网络（Generative adversarial network，GAN）（图1b-c）。生成模型的一个关键点是它们能够将学习到的潜在特征空间中的任何数据点映射回其在材料空间中相应的晶体结构。在高通量计算中，生成模型比基于替换元素的枚举可以提供更好的材料组分和结构多样性，比传统的CSP技术有更好的结构生成效率。

图1. a) 材料性质预测与逆向设计的示意图；b) 变分自编码器；c) 生成对抗网络

VAE由一个编码器和一个解码器组成，其训练目标是使解码的数据与输入数据之间的重构误差最小化。然而，编码器不是将输入编码为潜在空间中的单个点，而是将输入视为潜在空间上的分布（参数），然后可以对潜在空间中的新数据点进行采样和解码。

编码器的分布通常选择正态分布N（µ，σ）。使用VAE的代表性结构预测工具包括iMatGen、傅里叶变换晶体特性（Fourier-transformed Crystal Properties，FTCP）框架和约束的晶体深度卷积生成对抗网络（Constrained Crystals Deep Convolutional Generative Adversarial Network，CCDCGAN）。

具体地，FTCP增加了一个目标学习分支，将潜在点映射到目标属性（附带额外的属性映射损失）。CCDCGAN使用VAE学习从潜在的二维晶体特征到晶体结构的反向映射，然后使用该特征训练GAN以生成新的晶体结构。VAE的训练过程相对容易，并且它提供了比其他生成模型更多样化的结构。然而，VAE具有输出有效性低的潜在缺点（即生成的一些结果可能时无效的），部分原因是因为假设了特征空间遵循高斯分布。

GAN采用了博弈论的思想，使用了两个网络：生成器G，它将潜在空间中的随机变量z转换为生成的样本G（z）；鉴别器D，它区分样本是真实的还是生成的。对GAN进行训练，使G最大化D将生成的样本错误分类为真实样本的概率（也就是说，G想要尽可能地“欺骗”D），并且D尽可能地区分真实样本和生成样本。

这允许G学习真实数据的分布，此外，可以添加另一个网络分支来预测G（z）的性质，并将此预测包含在损失函数中，以产生具有所需性质的晶体结构，这在CCDCGAN和FTCP框架中都有体现。CrystalGAN进一步利用跨域的GAN从简单的二元Pd-H和Ni-H结构开始生成复杂的三元Pa-H-Ni结构。

然而，与VAE相比，GAN更难训练，因为它可能会出现诸如不收敛（模型参数振荡并且无法收敛），模式崩溃（生成器产生有限的数据）和梯度消失（鉴别器非常成功，生成器梯度消失并且没有学到任何东西）等问题。因此，总体而言，平衡GAN中的生成器和鉴别器对于防止过拟合至关重要。

特征表示

通常，材料数据库中的结构以晶体信息文件（CIF）格式存储，该格式通常用作特征表示的输入。在连续潜在特征空间中表示离散晶体结构是使用生成模型进行结构预测的第一步。目前主要有两种方法：一种是连续的三维表示，编码器和解码器分别使用二维晶体图重建三维表示；另一种是矩阵表示，将晶格参数、原子坐标和元素性质等晶体结构特征分配到矩阵的不同行和列中。

在iMatGen中，首先训练编码器将三维表示（晶格参数和原子位置）压缩成一张图像，然后解码器根据该图像重建晶体结构。CCDCGAN考虑使用晶格自编码器的3D像素表示，它首先将原子位置转换为像素网格；像素网格进一步转化为一维矢量，编码成二维晶体图。

在Composition-Conditioned Crystal GAN中，通过构建元胞参数和原子分数坐标的二维矩阵表示，利用点云表示大大降低了内存需求。FTCP框架通过考虑实空间和倒空间的特征，使用傅里叶变换的元素性质矩阵和米勒指数来得到二维矩阵。在上述特征表示中，从潜在空间到材料空间的可逆映射是必要的。

除了潜在空间与材料空间之间的可逆性外，结构特征表示原则上还需要具有不变性。由于潜在的晶体对称群，例如，经过晶体轴的平移、旋转或排列的表示应该是不变的，这意味着它仍然表示相同的潜在空间数据点。

然而，实际上目前的研究仍然缺乏一个完全可逆和不变的方案，应该探索其他的晶体特征表示。特征表示的另一个潜在问题涉及反向映射期间保真度的损失。换句话说，当一个潜在空间点反向映射回材料空间时，得到的晶体结构与原来的晶体结构不相同。给定的输入结构在多大程度上可以完全重建，以及重建过程中保真度损失引起的误差有多大，需要更仔细地确定。

训练数据

目前的生成模型主要使用的数据库包括无机晶体结构数据库（如Inorganic Crystal Structures Database）和计算数据库（如Materials Project）。为了确保足够的结构和元素多样性，通常使用已知晶体结构中的元素替换或数据增强技术来进行额外的高通量计算，以获得具有统计代表性的数据分布。

例如，iMatGen中的训练数据是通过从Materials Project中获取了25种V-O化合物，并将这些化合物替换为10981种二元金属结构，进而在Materials Project中重新发现了31个现有V-O结构中的26个，以及40个以前未确定的新结构。CCDCGAN研究了Bi-Se系统，而Materials Project数据库只包含17种已知的Bi-Se材料。

训练数据以类似的方式生成（每个单位晶胞的最大原子数限制为20，最大晶格常数限制为10 Å）；9810个结构在使用第一性原理优化时收敛。Composition-Conditioned Crystal GAN研究了Mg-Mn-O体系。训练数据也是通过Materials Project中三元化合物的元素置换生成的，初始数据集包含1240个结构和112种组分。

通过在单位晶胞中执行旋转和平移操作实现数据增强，为每种组分产生了1000个结构，从而产生了112000个Mg-Mn-O结构。利用GAN模型创建了9300个独特的结构用于高通量计算，其中发现了23个新的Mg-Mn-O晶体。

这些研究表明，现有的生成模型既能生成真实材料的结构，也能生成新的稳定结构。然而，对于给定的材料系统，每个生成模型都需要单独训练并增加数据，现有数据库仍然太小，无法开发适用于所有材料的全面和通用生成模型。

当然，训练数据的质量在决定生成神经网络的性能方面起着至关重要的作用，需要有足够的数据（10⁵-10⁶），并且具有较高的结构多样性（10³-10⁴），否则在训练过程中模型可能会产生偏差。

除了在开放材料数据库中对已知结构进行元素替换之外，数据增强和主动学习也会有所帮助。传统的CSP优化技术也可以通过搜索稳定和亚稳态结构来帮助缓解生成模型的训练问题。生成模型产生的结果结构可以反过来作为种子结构在CSP搜索中提供。

最后，要实现能量以外的属性逆设计，需要相应的数据库（例如，机械、电子和热输运属性）。例如，FTCP框架试图瞄准带隙和热电功率等特性。通过高通量密度泛函理论或力场分子动力学计算，或通过机器学习模拟，如晶体图卷积神经网络（CGCNN），可以缓解相关属性数据库的缺乏，一旦确定潜在的晶体结构，就可以提供快速的属性预测。

结论与展望

由于现有的材料特征表示主要基于图像或编码的潜在特征向量。尽管像CGCNN这样的网络结构已经出现，可以用于从材料到其潜在特征的正向映射以进行属性预测，但在逆向设计中将它们转为3D晶体结构的明确公式仍然是一个悬而未决的问题。

尽管在开发大规模结构预测和材料设计的未来生成模型方面存在挑战，但与传统的优化技术相比，这些模型一旦经过训练，就可以加快材料发现。理想情况下，生成模型应该能够解决数据数量有限的小问题的逆向设计，以及具有许多晶体自由度大的问题。

因此，用更少的训练数据或更广泛的训练组分和结构来展示生成模型是未来研究的重要领域。与此同时，受物理启发的模型，许多研究已经应用图卷积网络来生成有机分子，如流动和扩散模型。测试这些模型是否也适用于晶体结构的逆设计将是一件有趣的事情。

除了生成模型之外，强化学习，比如在蒙特卡罗树搜索中，已经被用来发现具有期望特性的材料结构，通过沿着有希望的方向引导结构生长。最后，重要的是要解决机器学习模型是否可以为实际应用提供发现的假设材料的可合成性的度量。例如，FTCP通过检查生成的结构是否存在于实验无机晶体结构数据库中来解决可合成性问题。这方面还需要更多的研究。

文献信息

Yan, D., Smith, A.D. & Chen, CC. Structure prediction and materials design with generative neural networks. Nat Comput Sci (2023).

https://doi.org/10.1038/s43588-023-00471-w

原创文章，作者：Gloria，如若转载，请注明来源华算科技，注明出处：https://www.v-suan.com/index.php/2023/09/30/347352cdaf/

Nature子刊：基于生成神经网络的结构预测与材料设计

相关推荐