改进新兴技术的催化材料是一项艰巨的任务。在多相催化剂中,双金属合金由于独特电子性质得到了广泛关注。其中,密度泛函理论(DFT)计算成为在原子水平上分析催化活性和筛选新型催化材料的重要手段。然而,DFT计算成本限制了对广阔化合物空间的探索,并阻碍了催化材料的高通量计算筛选。巴塞罗那自治大学的 A. Comas-Vives等人建立了与吸附位点相关的局部描述符的机器学习(ML)模型,用于预测吸附能,加快了对吸附位点周围局部活性位点的电子结构识别,加快了吸附能的预测,进一步实现对催化剂的高效筛选。
1. 本文提出了解决基于机器学习模型预测吸附能的两个局限性方法,并成功构建与吸附位点相关的局部环境描述符的机器学习模型,用于预测吸附能。
2. 将机器学习模型与聚类分析相结合,实现对数据库中异常数据的检测,进一步提高了模型的准确性。
3. CatBoost模型在训练集和测试集上的MAE分别为0.019 eV和0.174 eV,取得最优异的性能,并通过该模型准确预测了含有C、N、S、O和H原子几种物质的吸附能。
计算与机器学习方法
本文采用VASP软件包进行第一性原理DFT计算,使用BEEFvdW函数分别对数据库中的几何结构进行自旋极化单点能计算,波函数的截断能设置为35Ry,电荷密度的阶段能设置为350Ry,同时作者对布里渊区进行4×4×1的网格采样。
本文使用梯度增强架构的随机森林回归(RFR)、极致梯度提升回归(XGBoost)、梯度提升算法回归(CatBoost)和轻量级梯度提升机算法(LightGBM)作为机器学习模型。同时,作者采用了多元线性回归(MLR)和核岭回归(KRR)的作为线性回归机器学习模型,选择了均方误差(MSE)和平均绝对误差(MAE)指标评估模型的性能,并且通过SHAP评价输入特征和预测结果之间最相关的相关性。
本文选用34个描述符进行吸附能的机器学习建模,描述符分别为结构、电子和原子/元素性质。其中,表面相关描述符的构建流程如图1a所示,主要是通过表面顶部组装的球体获得,该球体的中心位于顶层上方1.5Å(Z轴坐标),XY轴坐标由表面上的吸附质确定,如图1b和c所示。随后,本文进一步研究了描述符与吸附能之间的相关性,图2显示了每个描述符之间的Pearson系数,并发现每个描述符和吸附能之间的相关性很弱。
图1 整体工作流程图及相关位点信息
图2 特征与吸附能之间与Pearson系数的线性相关性
本文构建了不同的机器学习模型,表1和表2中总结了不同ML的模型的结果,发现MLR模型显示出较差的性能,与Pearson系数结果一致。进一步发现KRR与RFR模型的平均误差和准确度(R2)相似,但XGBoost模型的准R2略高,其次,CatBoost模型显示出较高的偏差。相比之下,XGBoost在训练集中的偏差优于其他算法。为了得到最稳定的模型,进一步比较了训练集和测试集的回归指标,发现CatBoost模型表现出优异的性能,其次是XGBoost模型。为了验证CatBoost模型中的偏差合理化,本文比较了吸附能的预测值和实际值。图3显示了CatBoost和XGBoost模型的DFT计算吸附能和ML预测吸附能之间的关系。
通过对比发现,CatBoost模型似乎比XGBoost模型预测的偏差更高。然而,CatBoost模型分散数据点较少,也表明了CatBoost模型的MAE比XGBoost模型的MAE表现更好,说明CatBoost模型的性能更优异。随后本文使用Shapley加性规划(SHAP)方法评估了单个描述符对吸附能的影响,如图4,通过对比CatBoost和XGBoost模型的SHAP值,发现影响性能最大的描述符大多数是相同的。其中,影响最大的描述符是d轨道电荷,这与双金属催化剂中d-band对键合相互作用的影响相一致。但发现CatBoost模型中的每个特征对吸附能影响程度都明显减少,进一步说明在CatBoost模型中更多的特征与吸附能相关。
表1 不同ML模型10折交叉验证的准确率和标准差
表2不同ML模型在训练集和测试集上的评价指标
图3 CatBoost和XGBoost模型的DFT计算值与ML预测吸附能的对比图
图4 每个描述符的SHAP值分布
本文应用了统一流形逼近与投影(UMAP)这一降维技术来降低训练集的数据维度,UMAP减少局部和全局信息的相似性特征。初始聚类是对原始归一化数据库的减少值进行的,如图5a所示,SHAP值的数据减少显示出键合相互作用的两个明显趋势,发现使用SHAP值可以生成更好的的特征。随后将信息提取到数据中,在图5c中发现DFT计算值和ML预测值之间的差异,其中图5b描述了吸附能作为参考SHAP值的聚类。结合图3和5d中的结果,发现顶部位置具有最高的吸附能。同时发现,MAE超过1.0eV的数据仅占训练集的4.3%,所占比例相对较小。为了解决这一问题,本文接下来在弱吸附强度范围内增加采样。
图5 使用UMAP方法和CatBoost模型进行2D降维可视化的分析
监督聚类用于识别具有较高偏差点的内部相关性,即作为异常检测技术。因此,本文采用监督聚类分析周围局部环境描述符的影响,通过此方法将本文数据库中的总数从17343减少到13894,同时CatBoost模型的准确度显著增加。其中,CatBoost表现出最高的鲁棒性,但XGBoost和LightGBM模型显示出相似的结果,如表3和表4所示。
表3 不同ML模型的准确率和标准差
表4 不同ML模型在训练集和测试集上的评价指标
如图6a所示,预测模型内的离散度降低。同时,如图6b所示,每个特征对预测模型的影响都在减弱,发现与吸附质直接结合的表面原子数描述符有较高影响,表面的d轨道电荷和吸附质上的s轨道电荷起着至关重要的作用,随后本文使用原始归一化数据可以观察到聚类之间更好的分离(图6c)。基于SHAP值的聚类(图6d)表明,从数据集中删除顶点可以减少特征之间的干扰,有助于降低过拟合。
图6 基于ML的CatBoost方法模型从数据库中提取顶点的性能
本文通过评估所提出的特征对每个聚类的影响,进一步降低预测模型中特征之间的过拟合。在本文的模型中,影响聚类最大的特征是吸附质的类型,吸附质的HOMO能量值用于识别每个吸附质(如图7a)。此外,整体结构受吸附质中氢键数量(“H_ads”)的影响,如图7b所示。不含氢的吸附质彼此接近,具有全局相似性,具有相似的吸附行为(如C、N、S、O)。此外,d轨道电荷与吸附位点处表面原子的平均原子半径直接相关(图7c),当吸附位点的平均原子半径约为2Å时,d轨道电荷(“d_charge_surf”)的值最低。对比图7d和6d,当“d_charge_surf”减小时,吸附能略有增加。同时,这表明当平均原子半径较高时,键合相互作用增强,与C相关的聚类呈现出与S相同的趋势。
图7 使用CatBoost模型对SHAP值进行2D降维可视化
Usuga A F, Praveen C S, Comas-Vives A. Local descriptors-based machine learning model refined by cluster analysis for accurately predicting adsorption energies on bimetallic alloys[J]. Journal of Materials Chemistry A, 2024.
https://doi.org/10.1039/D3TA06316J
原创文章,作者:计算搬砖工程师,如若转载,请注明来源华算科技,注明出处:https://www.v-suan.com/index.php/2024/01/25/3523a0dd89/