二维(2D)共价有机框架(COF)的带边位置(band-edge)对其在光催化剂和纳米电子学中的应用起着至关重要的作用。然而,由于COF结构的多样性和复杂性,通过第一性原理计算,在大量的二维COFs中获得具有目标带边位置的非常耗时。为此,中国科学技术大学武晓君等人提出了一种通过结合第一性原理计算和机器学习(ML)来预测二维COFs带边位置的策略。在测试数据集上,预测的价带顶(VBM)和导带底(CBM)与第一性原理计算值的均方根误差分别为0.229和0.247 eV,同时也在高阶的杂化泛函上建立了线性关系,为高效预测2D COFs的带边位置提供了有效的工具。ML技术具备快速预测的能力,近年来在材料发现中得到了广泛应用。已经开发了几种ML模型来预测COFs的气体吸附和分离、电催化性能、和吸附热泵。在本研究中,作者采用第一性原理计算和机器学习方法,建立了分子前体轨道能量与二维COFs带边位置(VBMs和CBMs)之间关系的图神经网络(GNN)模型。作者从CoRE COF Database数据库中收集到了591个实验合成的COF结构(从2005年到2021年),在剔除了3D的COF、重复数据、带有金属离子等结构后,剩下381个2D COF结构(图1a)。之后,作者利用第一性原理,在PBE水平下计算了这381个COF结构的带边位置,如图1b-c所示。数据集分为训练数据集(80%)和测试数据集(20%)。考虑到HSE06计算的时间成本,30个原子数小于100的2D COFs的VBM和CBM位置使用了HSE06计算(图1d)。对于使用HSE06计算的VBM和CBM位置的小数据集,构建一个大的测试数据集(50%),以确保预测模型的泛化能力。所有ML方法都是在训练数据集中进行训练的,测试数据集用于验证ML方法的泛化能力,并选择性能最好的预测模型。图1.(a)数据集构建(b)计算的VBM分布直方图(c)计算的CBM分布直方图(d)使用HSE06计算的CBM和VBM训练ML模型需要设计好的材料描述符。由于二维COFs是用分子前体实验合成的,因此,作者将分子性质作为描述符来预测二维COFs的电子结构。分子轨道可以近似地表示为原子轨道的线性组合,因此可以用分子轨道能量作为描述符来预测用PBE计算出的VBM和CBM的位置。描述符包括前线分子轨道及其邻近轨道的能量,最高已占据分子轨道(HOMO),最低的未占据分子轨道(LUMO)以及HOMO和LUMO邻近的轨道。作者用B3LYP泛函计算了这些分子轨道的能量。考虑到二维COFs中相邻分子构建块之间的相互作用影响其电子带结构,将二维COFs的拓扑结构包含在描述符中。由于分子构建块之间的相互作用,使用无向图来表示二维COF,构建具有类似于2D COF拓扑结构的晶体图,其中每个分子构建块和每个连接由一个节点和一条边表示。为了明确描述符的构建过程,以TFB(1,3,5-三甲基苯)和联苯胺分子组装的BND-TFB COF为例,如图2a所示。在无向图中,每个TFB分子与三个联苯胺分子相连。EHOMO-4,…,EHOMO-1,EHOMO,ELUMO,ELUMO+1…,用两种分子的ELUMO+4作为描述符来描述分子前体,如图2b所示。图2. (a)图中节点表示分子前体,黄色节点代表TFB分子,蓝色节点代表联苯胺分子(b)分子轨道描述符作者通过使用图卷积网络(GCNs)和图注意网络(GATs)两个ML过程,在PBE水平上预测VBM和CBM的位置。为了得到合适的超参数,使用了交叉验证和网格搜索。选择5个指标来评价每个ML模型的性能,包括平均绝对误差(MAE)、均方根误差(RMSE)、皮尔逊相关系数(R)、平均绝对分数误差(MAEF)和均方根分数误差(RMSEF)。选择分子描述符后,将在测试数据集中预测的VBM和CBM位置与在PBE水平的计算结果进行比较,如图3所示。图3a-b中的散点图显示了GCN和GAT模型预测的VBM分布,其中大部分预测结果分布在基线附近。在98.7%的情况下,两种模型在PBE水平上的VBM位置的相对误差在10%以内。图3c-d显示了两种模型预测的CBM分布。GCN和GAT模型在PBE水平上的相对误差分别为85.7%和83.1%。相对误差表明,GCN和GAT模型在PBE水平上对VBM位置的预测优于CBM位置,而CBM位置的预测,GCN模型优于GAT模型。图3. GCN(a)和GAT(b)预测的VBM的散点图和误差,GCN(c)和GAT(d)预测的CBM的散点图和误差(PBE水平)表1总结了GCN和GAT模型在PBE水平预测VBM和CBM的MAE、RMSE、MAEF、RMSEF和R值。在测试数据集中,GCN和GAT模型在PBE水平上对VBM预测的RMSE值相似,分别为0.227和0.229 eV。对应的MAE值也相似,分别为0.175 eV和0.174 eV。GAT模型的分数误差值(RMSEF和MAEF)小于GCN模型。对于PBE水平的CBM预测,GCN模型的RMSE (0.247 eV)和MAE(0.174 eV)均小于GAT模型。GAT模型的分数误差大于GCN模型,可能是由于离群数据的相对误差大于20%。在半导体中,CBM的绝对值通常小于VBM的绝对值。即使CBM和VBM的预测也具有相似的误差值,并且由于前者的分母较小,CBM预测的分数误差大于VBM预测的分数误差。表1列出了R的计算值,其范围为82%~87%,表明VBM和CBM的预测与PBE计算结果高度相关,GAT模型适用于VBM的预测,GCN模型适用于CBM的预测。表1. 预测VBM和CBM的性能统计(PBE水平)不过,PBE泛函总是低估半导体的带隙,而HSE06泛函在第一性原理计算中被广泛用于获得精确的电子结构。然而,HSE06计算的时间成本巨大,阻碍了在HSE06水平上对2D COF的大规模筛选。为此,作者创建了线性模型(线性回归和岭回归)来探索用HSE06和PBE泛函计算的带边位置之间的相关性。作者以包含少于100个原子的30个2D COFs作为数据集,并使用PBE泛函计算的带边位置作为描述符来预测使用HSE06泛函计算的带边位置。图4显示了ML预测结果与使用HSE06计算结果的比较。可以发现,VBM和CBM位置的相对预测误差均小于5%,且两种方法的PBE泛函计算结果与HSE06泛函计算结果均表现出较强的直接线性相关性。表2列出了计算的MAE、RMSE、MAEF、RMSEF和R值。这两种方法的RMSE值都可以忽略不计,在HSE06水平上,VBM和CBM的RMSE值分别为0.089~0.090 eV和0.042~0.043 eV。RMSEF值也较小,分别为1.524%~1.532%和1.455%~1.489%。作者进一步建立了PBE和HSE06泛函的带边位置之间的线性关系,定义为CBMHSE(或VBMHSE)= a×VBMPBE+b×CBMPBE+c。对于预测HSE06水平的VBM, a和b值分别为1.208和0.036。对于岭回归预测HSE06水平的CBM,这两个值分别为- 0.079和1.117。图4. GCN(a)和GAT(b)预测的VBM的散点图和误差,GCN(c)和GAT(d)预测的CBM的散点图和误差(HSE06水平)表2. 预测VBM和CBM的性能统计(HSE06水平)然后,作者开发了一个工作流程来预测二维COFs的VBM和CBM,无需电子带结构计算,如图5所示。在HSE06精度下,预测VBM和CBM的MAE值分别小于0.293和0.242 eV,该工作流程可用于加速筛选具有合适带边位置的2D COFs。在中性条件下,当CBM和VBM的位置位于H+/H2(-4.02 V)和O2/H2O(- 5.25 V)的氧化还原电位之间时,可以作为水分解的光催化剂。如图6所示,作者筛选出182个2D COFs适合作为水分解的光催化剂;107种2D COFs作为析氢反应光催化剂,11种2D COFs作为析氧反应光催化剂。此外,59个2D COFs具有大于3.10 eV的宽带隙,可用于室温探测器。
图6. 在HSE06水平下的2D COFs的VBM和CBM位置分布,这些COFs适用于(a)水分解,(b)仅析氢反应和(c)仅析氧反应
作者报告了一种结合第一性原理计算和基于GNN的机器学习的方法,使用分子前驱体的前线分子轨道及其相邻分子轨道预测2D COF半导体带边位置。基于所建立的ML模型,作者以HSE06的精度预测了用于光催化水分解和纳米电子学的2D COF的带边位置。此外,相信随着未来COF数据集的扩展,ML模型可以进一步完善。
Dayong Wang, Haifeng Lv, Yangyang Wan, Xiaojun Wu, Jinlong Yang. Band-Edge Prediction of 2D Covalent Organic Framework from molecular Precursor via Machine Learning. Journal of Physical Chemistry Letters 14, 6757-6764 (2023)
https://doi.org/10.1021/acs.jpclett.3c01419
原创文章,作者:计算搬砖工程师,如若转载,请注明来源华算科技,注明出处:https://www.v-suan.com/index.php/2023/10/24/1061e5205c/