【AI+计算+材料】北航ACS AMI:机器学习扩展过渡金属硼化物家族! 2023年10月25日 上午2:32 • 未分类 • 阅读 14 【做计算 找华算】理论计算助攻顶刊,10000+成功案例,全职海归技术团队、正版商业软件版权! 经费预存选华算,高至15%预存增值! 研究背景 层状三元过渡金属硼化物(MABs) 由于独特的物理性质(如高强度、导电性等),在电催化、电化学、高温陶瓷等领域有广泛的应用前景。其中,M2AB2在MBenes的合成中起着重要作用。然而,目前对M2AB2的研究仍将A位点局限于IIIA和IVA族元素,需要全面探索M2AB2的化学组分空间。最近,在描述化合物的热力学稳定性时,常用的指标是分解反应到相应竞争相的能量ΔHd,可以通过凸包(convex hull,CH)分析得到的,但由于需要手工编程和复杂的数据处理,这种方法复杂且成本高。此外,现有的小规模数据集也限制了一般机器学习(machine learning,ML)方法的发挥。 对此,北京航空航天大学孙志梅团队基于高通量智能计算平台(ALKEMIE),开发了一个小数据集的机器学习方法来探索M2AB2的稳定性。作者构建了3个M2AB2晶体结构数据集,研究不同结构和组分特征对稳定性的影响,研究成果扩展了MAB系列材料,并提供了一种基于小数据集的机器学习方法来预测新化合物。 结果与讨论 DFT和ML的整体框架如图1所示。首先,将所有优化好的结构随机分成三个数据集,即训练集(60%)、验证集(10%)和测试集(30%)。其次,根据数据集生成相应的组成与结构特征;在训练集和验证集中,通过CH分析得到作为ML目标的ΔHd值。然后,基于原始特征和目标进行特征选择,选出优化后的特征子集;接着,基于训练集和验证集进行训练过程和实时的模型优化。最后,得到可靠的模型,并在测试集上进行测试,根据DFT-ML结果评估MAB相的稳定性。 图1. DFT-ML整体框架 为了尽可能多地探索新的M2AB2,作者选择的DFT数据集的化学空间包括M = Sc、Y、Ti、Zr、Hf、V、Nb、Ta、Cr、Mo、W、Mn、Tc、Fe、Ru、Co、Rh、Ni和A = Zn、Cd、Al、Ga、In、Tl、Si、Ge、Sn、Pb、P、As、S,如图2所示。本文共研究了234个正交晶系和234个六方晶系的M2AB2结构。考虑到晶体对称性的影响,作者构建了3个DFT数据集:(I)包括234个正交晶系和234个六方晶系的M2AB2结构;(II)仅包含234个六方晶系的M2AB2结构;(III)仅包含234个正交晶系的M2AB2结构。 在特征生成过程中,为了生成高质量的输入矩阵,作者选择了13种组分和结构特征,包括元素性质、原子轨道、价电子轨道等,并使用了各种统计数据,例如平均值和标准差等来描述这些特征。对于数据集I,考虑到两种不同晶体对称性的影响,生成了87个组分和结构特征。对于数据集II和III,由于每个数据集中只有一种晶体,因此产生了78个组分特征。 图2. 候选M2AB2的化学空间 考虑到M2AB2的规模(数据集I、II和III为468、234和234,<103)属于小样本建模,过大的特征数量级(102)可能无法训练出可靠的模型,导致维数灾难和模型性能不佳。 因此,作者使用MOD-selection算法进行特征工程。使用MOD-selection算法,作者分别在数据集I、II和III的特征数阈值N = 5、10、15和20处获得了4个优化的特征子集。 为了展示特征选择的结果,作者以数据集I中的15个特征的子集为例,如图3所示。平均的Mendeleev Number(meanMN)在子集中排名第一,对目标ΔHd的影响占主导地位。第二个特征 rNfV显示了f价电子对数据集I中ΔHd的重要影响。除了meanMN和rNfV之外,子集中的其他特征对ΔHd的影响相对较小,但对获得可靠的ML模型也做出了贡献。特征选择完成后,对所有子集进行归一化处理,保证输入矩阵的所有列都在同一量纲,避免数据值的奇异性。最终,对于三组M2AB2,训练过程的输入数据矩阵由相对于晶体数量的M行(数据集I为M = 326,数据集II和III为M = 164)和对应特征号的N列(N = 5、10、15和20)组成。因此,在数据集I、II和III中,分别有142、70和70个晶体用于预测过程。 图3. 候选M2AB2的化学空间 为了避免小样本ML方法在训练过程中出现过拟合或数据泄漏的问题,作者基于holdout交叉验证方法分析了训练集和测试集的统计分布。统计结果如图4所示。对于meanMN和平均电负性(图4a、c),结构特征(c轴的晶格常数,图4b)、目标ΔHd(图4d)等,训练集和测试集的分布基本一致。此外,ΔHd在训练集和测试集上的取值范围均为-0.05~0.65 eV/atom,符合正态分布。因此,在数据的统计分布方面可以有效避免过拟合或数据泄漏问题。 图4. 平均Mendeleev Number,晶格常数(c轴),平均电负性,和ΔHd的频率分布直方图,蓝色和橙色表示训练和测试数据 为了减少小样本对模型精度的影响,作者在深度神经网络(deep neural network,DNN)中采用了Batch归一化和Dropout层等一系列方法。此外,为了获得高精度和高效率的最佳模型,作者创建了一系列具有不同隐藏层结构的DNNs,并在1000个epoch中选择具有不同特征数阈值(N = 5、10、15和20)的子集对这些网络进行训练。 在15个特征子集上训练的两种隐藏层结构(200、100和40)的DNN具有最小的平均绝对误差(MAE,0.041 eV/atom)和RMSE (0.049 eV/atom),被选为预测数据集I中预测ΔHd的最佳模型。图5a显示了隐藏层为200、100和40的模型在验证数据集上的回归性能。大多数数据点分布良好,这意味着该模型具有良好的回归性能。 为了评估模型的热力学稳定性分类性能,作者使用图5b中训练集和验证集的数据点绘制了一个混淆矩阵。在混淆矩阵中,虚线表示ΔHd(70 meV/atom)的阈值,它将数据点分为四部分(TP,TN,FP,FN)。紫色点(TP和TN)代表正确识别为热力学亚稳或不稳定相的M2AB2对应的数据,而橙色点(FP和FN)代表错误分类的M2AB2。总体分类准确率达到90%,表明该模型具有出色的分类性能。 1000个epoch的训练集和验证集的均方误差(MSEs)如图5c所示。训练集和验证集的MSE损失函数分别收敛于0.0042和0.0024,表明模型得到了充分的拟合。此外,数据集I、II和III在未知测试集上的表现也进一步验证了模型的可靠性。 图5.(a) DFT计算的ΔHd和预测的ΔHd比较;(b)将ΔHd预测应用于稳定性预测得到的混淆矩阵;(c)1000个epoch中训练集和验证集的MSE loss 评估ML模型的可解释性具有重要意义。一个可解释的模型可以挑选出优势特征,并拟合出目标与特征之间的关系。 图6显示了ΔHd上一些重要特性的协同效应。在图6a中,对于数据集I中的混合晶体类型模型,c轴的晶格常数可以看作是六方晶系(蓝色,<10 Å)和正交晶系(红色,>10 Å)的显著特征。大多数蓝色点低于红色点,这表明六方晶系的M2AB2一般比正交晶系的M2AB2更稳定。 在图6b中,最大Mendeleev Number(A原子的基团数)与ΔHd没有明显的关系。然而,对于某一种A原子,所有稳定或亚稳态M2AB2(ΔHd < 70 meV/atom)都具有5种类型的未填电子轨道(NUnfill = 5),不稳定M2AB2呈现NUnfill≤5。也就是说,NUnfill = 5是M2AB2热力学稳定的必要条件。 图6c显示了数据集II的两个重要特征。当最大Mendeleev Number或A元素类型不变时,特征平均电负性直接由M元素的电负性决定。在图6d中,对于数据集III,与数据集I和数据集II相比,Mendeleev Number最大的ΔHd的总体增长趋势更为明显。 图6. 可视化预测ΔHd和重要特征,互补的特征在一定程度上缩小了ΔHd的目标范围,并表现出ΔHd的变化趋势 采用ML和DFT相结合的方法,系统地研究了六方晶系和正交晶系M2AB2在化学空间中的热力学稳定性。 考虑到不同晶体结构对称性的数据集I、II和III训练的三个DNNs,并且每组的训练和测试数据集是随机分开的,六方晶系和正交晶系M2AB2的DFT计算或ML预测结果ΔHd以热图的形式同时展示。数据集I、数据集II和III的ΔHd热图如图7所示。 一般来说,每个热图中网格从左到右的颜色变化(从蓝色到红色)表明,前面的过渡金属可以稳定六方晶系和正交晶系的M2AB2结构。这种趋势与作者的ML模型发现的组分特征平均Mendeleev Number是一致的。含有过渡金属Tl和Pb的晶体在六方晶系和正交晶系中都相当不稳定。含Al正交晶系的结构ΔHd值较低(图7b,d),说明正交晶系有利于M2AlB2的稳定性。 此外,数据集I和II中的六方晶系Zr2PbB2(图7a,c)和数据集I和III中的正交晶系Mo2AlB2(图7b,d)的稳定性与之前的DFT计算相对应。此外,还发现了3个负ΔHd的新M2AB2具有较高的合成可能性。在数据集I和II中,它们是六方晶系的Nb2PB2,Nb2AsB2和Zr2SB2(图7a,c),这为将MABs扩展到VA和VIA族提供了机会。 图7. 数据集I中六方晶系(a)和正交晶系(b)以及数据集II中六方晶系(c)和数据集III中正交晶系(d)的M2AB2 ΔHd热图 此外,为了评价热力学稳定性相对较低的体系的热稳定性,作者选择了ΔHd值在65~75 meV/atom之间的三种亚稳相,包括六方晶系的V2AsB2和Ta2AsB2以及正交晶系的Hf2CdB2。 然后,作者通过10 ps的AIMD模拟测试了它们在300 K下的热稳定性。通过力学稳定性和动力学稳定性评估,保证了MAB相的理论存在性。 作者计算了M2AB2的力学性能和声子谱。用DFTP法计算了M2AB2的刚度常数和声子谱。最后得到38个六方晶系和19个正交晶系理论稳定的M2AB2。M2AB2的理论体积模量(K)、剪切模量(G)和杨氏模量(E)分别为76~280 GPa、39~193 GPa和100~454 GPa和68~272 GPa、47~175 GPa和115~404 GPa。其中,六方晶系的V2PB2(454 GPa)和Nb2PB2(414 GPa)表现出较高的强度,模量值也相对较高,甚至远远大于先前报道的MABs和MAXs。 总结展望 作者训练了三种不同的ML模型,将DFT和ML相结合来预测ΔHd和相应的M2AB2的热力学稳定性。与计算的DFT相比,模型的预测精度高(>95%)且具有较低的MSE(~0.003),因此可以作为预测ΔHd的可靠工具。模型揭示了ΔHd和稳定性之间的定量关系,发现了3个稳定的六方晶系M2AB2,和75个亚稳态M2AB2。这项工作为小样本ML建模提供了一种方法,以加速化合物的发现,并将MAB系列化合物扩展到VA和VIA族。 文献信息 Yuqi Sun, Guanjie Wang, Kaiqi Li, Liyu Peng, Jian Zhou, Zhimei Sun. Accelerating the Discovery of Transition Metal Borides by Machine Learning on Small Data Sets. ACS Applied Materials & Surfaces 15, 24, 29278-29286 (2023) https://doi.org/10.1021/acsami.3c03657 点击阅读原文,报名计算培训! 原创文章,作者:v-suan,如若转载,请注明来源华算科技,注明出处:https://www.v-suan.com/index.php/2023/10/25/fa603b89a6/ 赞 (0) 0 生成海报 相关推荐 【纯计算】JACS:MXenes增强锂硫电池硫还原的有效筛选描述符 2023年10月26日 清华「国家杰青」,联手福大,最新Angew! 2024年10月26日 董斌/柴永明Angew:配体调节活性中心,促进Co掺杂1T-MoS2电催化碱性析氢 2023年10月21日 重磅!崔屹院士,今日Science! 2024年10月18日 【AI+计算+材料】清华大学张强&陈翔最新JACS! 2023年9月25日 【AI+DFT+材料】JPCL:机器学习预测二维COF材料的带边位置 2023年10月24日