【AI+DFT计算】Nanoscale:机器学习对合金结构和电子特征工程的析氢反应催化剂进行预测

【AI+DFT计算】Nanoscale:机器学习对合金结构和电子特征工程的析氢反应催化剂进行预测
研究背景
由于氢燃烧后二氧化碳排放量接近零,因此,氢成为了一种可持续能源。水电解制氢与传统的甲烷蒸汽重整相比,可以实现低碳制氢,但水电解需要高性能催化剂来促进析氢反应(HER),二元合金已证明对HER具有高活性的催化性能,但由于合金催化剂有巨大组合空间,给实验和计算探索方面带来了重大挑战。因此,随着机器学习(ML)的发展,ML可以加速电催化剂材料设计,减少实验和计算资源的耗费。
近日,哈尔滨工业大学胡凯龙和Xi Lin等人通过结合合金的电子和结构特性,构建了准确的ML模型,并用于预测HER的高性能合金催化剂,估计了合金特征对ΔGH*值的平均边际贡献,以确定预测过程中各种特征的重要性。此外,从材料项目(MP)数据库中成功筛选出84种|ΔGH*|值小于0.1eV的合金,并利用DFT方法进一步验证了ML模型的预测精度,为加速高性能合金析氢催化剂的成分设计提供了可解释的见解。
模型与计算方法
本文采用VASP软件进行了自旋极化DFT计算。在广义梯度近似(GGA)下,通过Perdew–Burke–Ernzerhof(PBE)方法计算了电子-离子相互作用,总能量变化和力的收敛条件分别小于1×10−5 eV和0.01 eVÅ−2。金属原子的核心电子采用了PAW方法,平面波基组的截断能设置为500eV,同时采用4×4×1的k点网格进行平板弛豫和吸附,真空层厚度为15Å。
结果与讨论
首先,从催化平台catalysis hub数据库中提取8856条HER合金的化学成分和适当的ΔGH*值。接下来,通过特征工程将数据集转换为包含280个特征的数据集。
随后,使用Pearson相关系数法选择了86个相关特征,并构建六个不同的ML回归模型,并通过Shapley估计了特征的平均边际贡献,同时利用ML模型进行ΔGH*预测。
最后,使用性能最优的LGB模型鉴定出86种具有潜在HER性质的材料。随后,使用DFT计算研究了四种潜在的HER合金,具体流程如图1所示。
【AI+DFT计算】Nanoscale:机器学习对合金结构和电子特征工程的析氢反应催化剂进行预测
图1. ML加速二元合金的HER催化活性预测的工作流程
本文的数据集由8856条合金催化数据组成,包括ΔGH*值、化学成分和吸附位点,该数据集包含L10和L12合金,分别对应于AB和A3B的面心立方(FCC)晶体结构。
AB和A3B合金材料的ΔGH*值被绘制为金属A和B的函数,如图2显示了数据集中最稳定的吸附位点。
【AI+DFT计算】Nanoscale:机器学习对合金结构和电子特征工程的析氢反应催化剂进行预测
图2.(a)AB型合金表面的ΔGH*值(b)A3B型合金表面的ΔGH*
本文将单个电子和元素特性转化为化合物特征,并创建了结构吸附位点特征。为了创建可靠的化合物特征,首先通过收集电子成分的信息来收集电子特征。其次,根据已有的信息提取化学和物理性质。第三,使用化合物元素组成比的one-hot coding方法来反映化学计量特征。随后通过分析和统计方法进行了编码,将电子和元素特性转换为化合物特征。
合金表面结构在探索HER催化效应方面发挥了重要作用。如图3特征热图所示,展示了合金组分元素与数据集中最稳定吸附位点之间的关系。
本文将特征的吸附位点分为三种类型,通过LabelEncode方法编码分为位点S1、位点S2和位点S3。S1特征包括顶位、桥位和端位的信息。S2特征描述了吸附位点周围原子的位置,吸附物质H在吸附位点原子之间的具体表示被编码为S3。此外,使用MinMaxScaler包来减轻数据范围和维度对ML模型的影响。
总体而言,该数据集包括277个元素性质特征和编码的三个结构位点特征,因此,特征工程过程总共生成了280个初始特征。
【AI+DFT计算】Nanoscale:机器学习对合金结构和电子特征工程的析氢反应催化剂进行预测
图3.(a)AB和(b)A3B合金表面的优化H吸附位点。
在特征之间存在共线的情况下,ML模型遇到了不稳定性,难以准确建立特征之间的相关性及其对标签的影响。因此,删除模型中的冗余特征是必不可少的。
本文采用Pearson相关系数指数用于表示数值特征与ΔGH*值之间的相关性。当皮尔逊相关系数绝对值达到0.9时,所选择的特征数量相对合适,并且模型R2高于其他条件。当相关系数达到0.95时,测试模型R2只能达到0.921,接近相关系数的0.90,如表1所示。
为了防止多重共线性导致的过拟合,选择了少量特征,确保模型中没有多余的特征。最后,本文保留了86个特征。
表1. 皮尔逊相关系数法选择特征数
【AI+DFT计算】Nanoscale:机器学习对合金结构和电子特征工程的析氢反应催化剂进行预测
接下来对数据进行6种机器学习模型预测,其中LGB模型预测结果与DFT计算结果显示出良好的一致性,在整个数据集上显示出线性关系,这证明了LGB模型的高精度,有效地学习了数据集中的所有重要信息。
在LGB训练模型中RMSE仅为0.037eV,R2得分为0.99,XGB和RFR模型的R2得分分别为0.911和0.886,排名第二和第三,SVR、GBDT和KNN模型的R2分数分别为0.856、0.798和0.556,如图4所示。因此,选择LGB模型进行后续预测和特征重要性分析。
【AI+DFT计算】Nanoscale:机器学习对合金结构和电子特征工程的析氢反应催化剂进行预测
图4. 使用(a)LGB模型(b)XGB模型(c)RFR模型(d)SVR模型(e)GBDT模型和(f)KNN模型对预测和DFT计算的ΔGH*值进行比较
SHAP方法提供了影响预测单个特征的值,并用于估计合金特征对ΔGH*值的平均边际贡献。本文基于SHAP值对特征重要性进行了排序,为重要特征的提取提供了新的见解。LGB模型具有较高的预测性能(R2>0.92),被选择用于SHAP估计。SHAP值可用于评估ΔGH*值与合金特征之间的相关性。
图5a表示了影响程度是由数据集中所有数据点的平均绝对SHAP值决定的,显示了20个最重要的功能。此外,图5b和c绘制了数据集中每个合金ΔGH*的SHAP值,进一步验证两个重要元素特征的影响。
图5b显示了平均组数的临界范围(Mc高于7.5),其中SHAP值几乎都是正的。根据目前的LGB模型,预测的ΔGH*将随着平均组数的增加而增加。同样,小于1300°C的平均熔点将提高HER合金材料的ΔGH*(图5c)。
【AI+DFT计算】Nanoscale:机器学习对合金结构和电子特征工程的析氢反应催化剂进行预测
图5.(a)LGB模型的全局解释(平均特征重要性)和局部解释(SHAP值分布)(b)Mc特征(合金中元素的基团数的平均值)和(c)Mp特征(元素在合金中的熔点的平均值)的合金催化数据的SHAP值
五个特征的平均绝对SHAP值被用作HER合金数据库上回归的输入(表2),其中Mc对ΔGH*值预测的影响最大,其次是S2、Mp,S1和Md。
前四个特征的平均绝对SHAP值大于0.1eV 。在分析了前五个最重要的特征后,带有LGB模型的SHAP方法成功地捕捉到了合金的元素特征、结构位点特征和电子特征。这一发现为进一步分析影响ΔGH*的特征重要性奠定了基础。
表2. ΔGH*预测LGB模型选择特征的排序平均绝对SHAP值
【AI+DFT计算】Nanoscale:机器学习对合金结构和电子特征工程的析氢反应催化剂进行预测
为了评估模型的稳定性,研究了LGB、XGB、RFR和SVR模型的预测精度对训练数据集大小的依赖性(图6a)。当使用8000个数据点进行训练时,LGB模型获得了0.245eV的最低RMSE值,与其他模型相比,其准确性更高。
此外,为了证明预测的可靠性,ML模型进行了交叉验证偏差评估,学习曲线当达到10倍交叉验证的指定平均R2分数时停止(图6b),10倍交叉验证曲线显示,LGB模型的平均R2得分为0.921,高于XGB(0.911)、RFR(0.886)和SVR(0.814)模型。
随后,使用得分最高的LGB模型预测从MP数据库中筛选了2290个数据催化剂的ΔGH*值,具有2290个数据ΔGH*分布的重要特征Mc揭示了明显的线性关系(图6c)。当Mc特征在1.0到4.5之间时,ΔGH*预测更接近0.0 eV。同时,为了与实验建立更强的联系,通过计算ΔGH*值来获得过电势。
理论过电位值和ΔGH*之间的关系为ηHER=−|ΔGH*|/e,表3提供了数据集中四种HER合金催化剂的过电位值的比较。ΔGH*绝对值≤0.1eV的范围被选为有效HER的理想区域,其与ΔGH*=0eV比较接近。经过选择,84种合金的ΔGH*绝对值小于0.1eV,84种合金的形成能范围在−1.80 eV至0.00 eV之间(图6d)。
表3. 四种HER合金催化剂实验测量值与预测值的ηHER比较
【AI+DFT计算】Nanoscale:机器学习对合金结构和电子特征工程的析氢反应催化剂进行预测
【AI+DFT计算】Nanoscale:机器学习对合金结构和电子特征工程的析氢反应催化剂进行预测
图6.(a)ML模型预测期间的RMSE值对训练数据集大小依赖性(b) ML模型的k次交叉验证的R2得分(c)MP数据库的2290个数据ΔGH*预测和特征Mc的分布(d)84种合金的ΔGH*分布,其形成能值在-1.8至0.0 eV之间。
接下来,通过DFT计算进一步研究了代表14种化合物的蓝点,ML模型可以有效地识别合金成分及其吸附活性位点,获得了ScAu、TbSb、TbCd和TiAu的ΔGH*值,DFT计算和ML预测之间的误差相对较小。
如图7a所示,ScAu在DFT计算中表现出优异的ΔGH*值,可以达到0.036eV,ML预测和DFT计算之间的误差值仅为0.002eV。Sc的d轨道和Au的s轨道包含空轨道和不成对电子。当吸附剂H与ScAu合金表面接触时,在空位轨道上形成化学吸附键,达到分子活化的目的,降低了吉布斯自由能,更有效地完成了HER。
其次,机器学习模型对TbSb预测性能也较为优异,预测的ΔGH*值为0.009eV,与DFT计算值0.051eV更为接近(图7b)。TbCd和TiAu在ML预测和DFT计算之间的误差较小,分别达到0.033eV和0.060eV(图7c和d)。比较表明,高性能LGB模型可以准确模拟H在合金表面的吸附。
根据以上优异的性能,发现ScAu和TbSb是HER的有前途的电催化剂,并进一步验证了使用ML加速方法预测催化活性的可行性。
【AI+DFT计算】Nanoscale:机器学习对合金结构和电子特征工程的析氢反应催化剂进行预测
图7.(a)ScAu(b)TbSd(c)TbCb和(d)TiAu的析氢反应DFT计算和ML预测的反应途径以及ΔGH*值的比较
结论与展望
本文设计了准确有效的ML模型来预测二元合金HER催化剂,共收集了8856条电子和结构特征工程的数据作为ML模型的数据集,确定LGB算法是性能最好的模型。其中,特征Mc对ΔGH*值影响最大,并呈正相关,新引入的电子和结构位点特征能够为发现高性能电催化剂提供必要的物理解释。
为了进一步证明模型的有效性,使用ML对ΔGH*值接近0.0eV的84种合金进行预测,并使用DFT进行了计算,对ML预测结果作出了进一步的独立验证。本工作与DFT计算相比,提高了高性能合金电催化剂的计算效率,加快了合金电催化剂的筛选。
文献信息
Zhang J, Wang Y, Zhou X, et al. Accurate and efficient machine learning models for predicting hydrogen evolution reaction catalysts based on structural and electronic feature engineering in alloys[J]. Nanoscale, 2023.
https://doi.org/10.1039/D3NR01442H
【做计算 找华算】
计算内容涉及OER、HER、ORR、CO2RR、NRR自由能台阶图、火山理论、d带中心、反应路径、掺杂、缺陷、表面能、吸附能
添加下方微信好友,立即咨询
【AI+DFT计算】Nanoscale:机器学习对合金结构和电子特征工程的析氢反应催化剂进行预测

电话/微信:13622327160

【AI+DFT计算】Nanoscale:机器学习对合金结构和电子特征工程的析氢反应催化剂进行预测

 点击阅读原文,立即咨询计算!

原创文章,作者:v-suan,如若转载,请注明来源华算科技,注明出处:https://www.v-suan.com/index.php/2023/10/23/9d2fdbd937/

(0)

相关推荐