Sargent院士npj.Comput.Mater.: AI+计算+实验！开发可解释的材料设计模型

研究背景

面向材料性质预测的机器学习模型以很小的计算成本来得到与密度泛函理论近似的计算结果，这加速了新材料发现的进程。为了弥合理论和实验之间的差距，机器学习的预测结果需要以可解释的化学规则的形式提炼出来，供科学家使用，从而来进一步设计新材料。

在此，多伦多大学Edward H. Sargent团队和渥太华大学Isaac Tamblyn团队合作提出了一种将基于进化算法的搜索与机器学习代理模型相结合的框架（Deep Adaptive Regressive Weighted Intelligent Network，DARWIN），可以有效利用机器学习的解释性指导材料的发现。

结果与讨论

DARWIN包含3个部分：

（1）机器学习预测代理模型

在代理模型中，作者主要关注光电材料的应用，因此，作者聚焦于材料的热稳定性（energy above the hull）、带隙和带隙的类型（direct/indirect），开发了3个预测模型。热稳定性和带隙类型的数据来源于Materials Project数据库，分别包含117000和45000个数据点；带隙的数据来源于开源的HSE06数据库，包含超过10000个材料的HSE06带隙数据。

3个代理模型均使用了图神经网络框架，并由MatDeepLearn包和PyTorch框架联合搭建（原子表示为图的节点，两个原子之间的空间信息表示图的边，如图1（a）所示），将得到的图利用卷积层和池化层实现材料的特征提取。为了提高代理模型的精度，作者采用迁移学习的策略，即在OQMD数据库中的500k的形成能数据上训练得到一个源模型，并通过微调的方法训练本文中的三个目标代理模型。

在热稳定性和带隙预测中，经过迁移学习得到的模型误差要比从头训练模型的误差低；在带隙类型的预测中，经过迁移学习得到的模型的精度要比从头训练模型的精度高。此外，由于带隙类型的数据不平衡，作者采用了欠采样（under-sampling）的方法来平衡直接带隙和间接带隙数据集，所得到的性能对比如图1（b-d）所示。图1中，r-MEGNet和r-CGCNN表示使用优化结构的数据集上训练的MEGNet和CGCNN模型，将其性能视为baseline性能。

图1：（a）图神经网络架构；（b）预测热稳定性的性能对比；（c）预测带隙的性能对比；（d）预测带隙类型的性能对比

（2）进化算法（Evolutionary algorithm，EA）搜索模型

EA建立在三个代理模型的基础上，用于快速搜索具有特定性质的材料，如图2所示。EA可以分为五个步骤：初始化一个主要的候选材料集、使用代理模型进行预测、评估这些预测的性质与目标性质的差距、选择合适的材料（适者生存）、突变选择的个体（替换一定比例的元素）产生新的候选集。突变过程是采用替换具有相同氧化态的元素实现的，以保证结构的电中性。EA依靠代理模型来预测感兴趣的材料性质，并评估候选集合的适合性。实验表明，突变策略本身就足以搜索广阔化学空间，来得到最佳的材料组成。

图2：进化算法架构

（3）化学可解释性模型

DARWIN通过确定化学特征和规则来提供对材料性质的物理和化学见解，这些信息可以为实验科学家设计新材料提供参考。在EA模型运行过程中，所有候选物都被分为两类：满足目标性质的材料和不满足目标性质的材料。这些材料都使用新的材料描述符来描述，如对于AxByXz化合物，采用B位点和X位点原子的电负性的统计值，以及各类孤立的元素性质、元素的HOMO-LUMO能级以及能带中心等。为此，作者训练了一个基于随机森林的分类模型，以获得描述符对模型的重要性。

为了证明DARWIN的有效性和通用性，作者在以下3个案例中进行了实践。

（1）设计具有直接带隙的材料

作者尝试将研究直接带隙和间接带隙的材料体系扩展至所有稳定的p-block半导体。DARWIN发现，化合物包含高原子质量的p-block元素更容易表现出直接带隙（即元素具有更小的熔点和大的共价半径），这已经被相关文献所报道；类似地，LUMO能级越小的元素会导致整个化合物p轨道的价电子更多，化合物也更容易表现出直接带隙，也更加稳定。

此外，作者还观察到随着元素平均电负性的增加，材料趋向于更加稳定的直接带隙材料，如图3所示。利用这些设计规则，作者修改了一些广泛用于半导体和催化应用的间接带隙材料，使之成为直接带隙材料。为了测试DARWIN衍生的规则是否有更广泛的应用，作者展示了一些设计的通过阳离子修饰和混合阴离子的化合物，如表1所示。

图3：DARWIN提供的化学见解。（a）用于设计直接带隙材料的化学可解释性；（b）用于设计直接带隙、稳定的紫外发光材料的化学可解释性

表1：通过对间接带隙材料进行改性与设计，得到的直接带隙材料

（2）设计具有直接带隙的、稳定的、紫外发光材料

接着，作者使用DARWIN来解决一个更为复杂的多目标材料发现问题，即发现具有直接带隙的、稳定的、紫外发光材料（带隙范围为3-4 eV），化合物的搜索空间扩展至所有的三元卤素化合物。作者发现，B位点（化合物中的第二个金属元素）和X位点（阴离子）的电负性的差异对模型具有重要的影响，进一步分析发现当一个材料属于具有直接带隙的、稳定的、紫外发光的材料时，这个电负性的差异在0.84-1.5之间。

这表明这个特定的范围是最佳的电负性差异窗口（OEDW）。利用OEDW，作者实验合成了具有代表性、且满足目标性质的K₂CuCl₃和K₂CuBr₃，如图4所示。作者还对K₂CuCl₃进行了第一性原理计算（优化结构采用GGA-xc泛函，电子结构采用HSE06泛函），发现K₂CuCl₃具有直接带隙，且PDOS揭示了卤素元素对价带顶具有重要的贡献，而B位点主要占据了导带底，与DARWIN所揭示的化学见解高度吻合。表2是作者依据化学可解释性所设计的紫外发光材料。

图4：K₂CuX₃的实验与计算结果

表1：设计的稳定、具有直接带隙的紫外发光材料

（3）设计具有直接带隙的、稳定的、红外发光的钙钛矿材料

为了测试DARWIN的通用性，作者进一步设计具有直接带隙的、稳定的、红外发光的钙钛矿材料（聚焦于串联太阳能电池，带隙为1.2 eV）。作者发现，化合物中元素的熔点的和与元素周期表中最大行之商，对搜索结果有负面的影响，如图5所示。

也就是说，为了得到具有1.2 eV的带隙值，元素尽可能选择重金属，这也与之前文献报道的（MAPbI₃和CsPbI₃具有小的带隙）结果一致。从统计意义上来说，元素的熔点和p轨道的价电子数分别与红外发光的材料呈现负的相关性和正的相关性。这些可解释性准则也可以用来修饰化合物，表3列出了一些按照DARWIN解释规则设计的钙钛矿化合物。

图5：用于设计直接带隙、稳定的红外发光钙钛矿材料的化学可解释性

表3：设计的稳定、具有直接带隙的红外发光钙钛矿材料

结论展望

这项工作提出了将机器学习预测代理模型、进化算法和化学可解释性联用的材料设计框架DARWIN，并在设计直接带隙材料、稳定的紫外发光材料和红外发光钙钛矿材料的案例中证明了DARWIN的有效性和通用性。最后，作者展示了DARWIN产生的化学规则如何在统计意义上更加健壮，并适用于更加广泛的应用（如紫外卤化物钙钛矿的设计等）。

文献信息

Choubisa, H., Todorović, P., Pina, J.M. et al. Interpretable discovery of semiconductors with machine learning. npj Comput Mater 9, 117 (2023).

https://doi.org/10.1038/s41524-023-01066-9

原创文章，作者：Gloria，如若转载，请注明来源华算科技，注明出处：https://www.v-suan.com/index.php/2023/10/03/08dcb2ba37/

Sargent院士npj.Comput.Mater.: AI+计算+实验！开发可解释的材料设计模型

相关推荐

分享到：