机器学习||顶刊汇总:Nat. Rev. Phys.、npj Comput. Mater.、Adv. Sci.、CEJ等 2023年10月14日 下午1:46 • 未全平台发布, 顶刊 • 阅读 18 1. IF=31.068,Nat. Rev. Phys.概述可解释机器学习在粒子物理学中的应用! 机器学习(ML)方法在粒子物理学中具有广泛应用,但没有可解释性就不能保证算法学习的结果是正确/稳健的。开发可解释的ML/AI方法是为了消除多变量分析的黑箱问题,然而物理学中可解释AI的曙光主要归结为解释神经网络如何分析实验数据,而不是转向更可解释的ML框架,这有助于更好地理解ML模型的动力学并在随后的分析中建立信心。 在此,德国电子同步加速器(DESY)研究中心/洪堡大学Ayan Paul等人概述了如何将可解释性引入粒子物理学中常用的ML方法。其中,用于对科学数据中的非线性关系进行建模的两个最常见的ML框架是决策树和神经网络。决策树易于解释,但不如神经网络强大。相反,在给定噪声数据的情况下,神经网络的泛化效果要好得多,但其参数无法提供任何关于输入变量与输出变量如何连接的洞察力。此外,处理更复杂的数据集需要增加模型的复杂性,但这样做会导致其可解释性下降。为了重新引入训练模型的可解释性元素,研究人员提出了事后方法来检查ML模型并尝试找出做出决策的原因。这些方法大致分为两类:(1)根据输入变量解释每个结果的局部方法;(2)全局方法,将模型解释为一个整体并确定整体“变量重要性”,从而构建输入变量在确定输出中的重要性层次结构。 图1. ML模型准确性-可解释性之间的权衡 进一步,作者以测量希格斯粒子与底部夸克的汤川耦合为例说明了可解释分析在粒子物理学中的应用。这种测量面临的挑战是从运动学相似的背景中提取极小的信号,而基于运动学切割的传统方法无法分离这些信号。ML(增强决策树,BDT)模型使任务更可行,但代价是分析不透明。然而,动力学可通过使用Shapley值来解释BDT并将重要性层次分配给变量来理解。此外,本文中关注的是变量重要性方面,但更有挑战性的主题如误差传播、模型鲁棒性和建立物理模型也需要关注。作者认为:贝叶斯推理和ML的协同作用可实现对模型参数和预测的误差估计;模型鲁棒性的理解可帮助避免在模型训练的参数空间附近的错误预测,进而实现更好的泛化;建立与物理相关的模型可建立更可靠的系统动力学模型,从而预测控制系统的基本规律。总之,本文提供了一个初学者指南,用于构建粒子物理领域可解释的多变量分析模型。 图2. 粒子物理学领域可解释性分析的简单举例 Lessons on interpretable machine learning from particle physics, Nature Reviews Physics 2022. DOI: 10.1038/s42254-022-00456-0 2. npj Comput. Mater.: 机器学习发现环境压力下控制实验材料稳定性的方程 虽然实验研究中的机器学习(ML)已经展示了令人印象深刻的预测能力,但从实验数据中提取可替代的知识表示仍然是一项难以捉摸的任务。 在此,美国麻省理工学院Tonio Buonassisi, Richa Ramesh Naik及Armi Tiihonen等人使用科学ML从环境压力(高温、湿度和光照)下降解有机-无机甲基碘化铅(MAPI)钙钛矿薄膜的实验数据中推断出潜在的偏微分方程(PDE)。在这项研究中,作者专注于PDE-FIND算法在钙钛矿降解数据中的应用。其中,选择 PDE-FIND是因为它是一种可解释的方法并提供了对动力学的简洁描述,并且可以灵活地将领域专业知识应用于库选择。直接从实验老化测试数据中成功识别控制PDE将加深对热降解的理解,并为钙钛矿太阳能电池的可靠寿命预测及长期老化测试加速因子的确定提供工具。本研究的目标有两个:(1)使用稀疏回归方法 PDE-FIND揭示与钙钛矿降解相对应的潜在PDE;(2)通过比较有/无噪声的模拟数据,量化噪声对PDE-FIND提取PDE精度的影响。 图1. PDE-FIND基于实验数据提取PDE 使用稀疏回归算法,作者发现在35~85°C的广泛温度范围内控制MAPI降解的底层PDE最低限度可由一个二阶多项式来描述。尽管数据集中存在噪声和方差,但仅选择了与系统动力学相对应的函数,并且PDE与数值导数表现出良好的一致性。通过对模拟数据的鲁棒性分析表明,当添加高达5% 的高斯噪声时,具有二阶多项式库的PDE-FIND可成功识别描述模拟数据的PDE。然而,拟合参数的误差随噪声的增大而增大,最高接近80%。如果获得的数据具有低噪声或可通过降噪技术去噪,则科学ML方法在揭示动力系统的控制方程方面非常有用。总之,该研究展示了ML加速对钙钛矿材料降解的理解和可靠性优化,突出了与ML辅助科学发现相关的前景和挑战。 图2. 基于模拟数据评估噪声对PDE提取的影响 Discovering equations that govern experimental materials stability under environmental stress using scientific machine learning, npj Computational Materials 2022. DOI: 10.1038/s41524-022-00751-5 3. npj Comput. Mater.: 自动DFT+机器学习模拟Ni3Al基合金的反相畴界能 反相畴界(APB)是平面缺陷,在强化镍基高温合金中起着关键作用,它们对合金成分的敏感性为合金设计提供了灵活的调整参数。 在此,美国加州大学伯克利分校Mark Asta、劳伦斯利弗莫尔国家实验室Timofey Frolov等人报道了一个计算工作流程以提供足够的数据来训练机器学习(ML)模型,从而自动研究成分对Ni3Al基合金中(111)APB能(记为γ111)的影响。作者通过创建一个计算工作流程来自动化DFT计算,最终生成了丰富的数据(包括溶质位点偏好、γ111及物理上有意义的特征),从而实现对APB能的化学贡献的数据驱动评估。具体而言,对于每个三元物种,作者首先使用PyDII计算其亚晶格偏好,然后使用该预测来使用ATAT构建模型超晶胞。接下来,基于VASP进行DFT计算以获得γ111。最后,使用在scikit-learn中实现的ML技术来分析数据中的相关性并为γ111构建预测性ML模型。 图1. γ111成分依赖性的代表性曲线 研究表明,PyDII预测Co和Cr是位置偏好变化最大的两个物种。对于Co,可将其行为归类为更偏好Ni亚晶格;对于Cr,PyDII预测对Al亚晶格的偏好非常强烈。DFT结果还表明,几种元素表现出对γ111的非单调浓度依赖性,这可能对合金设计产生重要影响。在d区元素中,Ta可能是在高浓度下使γ111最大化的元素。此外,用于分析γ111成分依赖性的随机森林(RF)模型实现了0.033 J m-2的五倍交叉验证误差,R2 为 0.753。进一步,作者通过预测商业高温合金中的APB能证明了RF模型的可转移性与普适性。总之,这项研究表明高通量计算和ML之间的协同作用为探索广阔的合金成分空间提供了机会,并加快了合金应用的发展进程。 图2. RF模型结果 Modeling antiphase boundary energies of Ni3Al-based alloys using automated density functional theory and machine learning, npj Computational Materials 2022. DOI: 10.1038/s41524-022-00755-1 4. 伦敦玛丽女王大学Adv. Sci.: 用于表示域独立材料发现的公式图自注意网络 机器学习(ML)在材料属性预测中的成功在很大程度上取决于如何表示材料以进行学习。目前存在两种主要的材料描述符,一种在表示中编码晶体结构,另一种仅使用化学计量信息。其中,图神经网络(GNN)尤其擅长在化学精度范围内预测材料特性。然而,由于各自的材料表示之间几乎没有重叠,当前的GNN仅限于上述两种途径中的一种。 在此,英国伦敦玛丽女王大学郝阳教授等人引入了公式图的新概念,它统一了仅化学计量和基于结构的材料描述符。进一步,作者开发了一种吸收公式图的自注意力集成GNN并将其命名为Finder(Formula graph self-attention network for materials discovery),从而实现了单独使用公式或通过单独晶体结构计算来预测材料特性。Finder是一种消息传递GNN,它在Transformer架构中采用了一种自注意力机制的变体。研究表明,在Materials Project(MP)中管理的各种基准数据库上,Finder可以超越一些最先进的纯化学计量模型(如Roost)并可与MEGNet和CGCNN等晶体图模型竞争。与这项工作中重新审视的其他模型相比,Finder模型显示出更快的收敛速度并在探索的所有训练集大小下实现了更低的误差。 图1. Finder模型学习效率评估和t -SNE/PCA 可视化 作为一个具有挑战性的应用,作者研究了Finder在预测来自JARVIS DFT存储库材料的频率相关介电常数方面的能力。随后,作者确定了具有从近红外 (NIR)到紫外线(UV)区域的工作频率范围内有前途的介电常数趋近于零(ENZ)材料。结果表明,含有钒氧阴离子的化合物是一种令人兴奋的低损耗 ENZ候选材料。ENZ材料表现出奇异的特性,如促进谐波产生的非线性电光现象、波混合、超快光开关和相位可调超表面设计。尽管训练数据库的规模有限,但Finder模型可在不使用晶体结构的情况下准确预测材料的介电功能,使其成为任何给定规模的强大材料发现平台。总之,诸如Finder之类的领域不变框架结合了NLP和计算机视觉等其他学科的方法论,开创了材料科学真正的跨学科研究途径。 图2. 从MP数据库中发现ENZ材料 Formula Graph Self-Attention Network for Representation-Domain Independent Materials Discovery, Advanced Science 2022. DOI: 10.1002/advs.202200164 5. 马普学会CEJ: 可解释机器学习加速发现用于乙烷/乙烯分离的MOF! 由于其高孔隙率和可定制的功能,金属有机框架(MOF)被认为是适用于广泛应用的材料候选者,包括气体分离和储存、催化和能量转换。其中,金属节点和有机连接体的大量组合导致了无限的材料空间,这为设计高性能MOF提供了高度的灵活性和潜力,同时也带来了一定的挑战。 在此,德国马普学会复杂技术系统动力学研究所周腾博士等人报道了一种可解释的机器学习(ML)方法,用于加速发现用于选择性分离乙烷(C2H6)和乙烯(C2H4)的有前景MOF材料。首先,作者基于分子模拟数据训练和测试ML模型,同时以不同类型的材料描述符和指纹作为输入,将MOF分类为C2H4选择性和 C2H6选择性类别。基于对获得模型的SHAP解释可推断出一系列特征规范,从而指定MOF结构中的首选特征。根据这些规范,可从大型MOF数据库中有效地将一小部分MOF识别为潜在的C2H6选择性吸附剂。最后,对这些潜在候选者进行了GCMC模拟,其中93.8% 的已识别候选物被证实具有C2H6选择性,最佳MOF(hMOF-5067000)显示出6.46的高C2H6/C2H4选择性。 图1. 基于PubChem的RF模型的全局和局部解释 尽管作者基于该模型方法确定了高性能MOF,但也存在一些限制。首先,PubChem指纹仅使用二进制变量来指示存在或不存在,而不是子结构的出现频率。这使得结果易于理解和解释,但缺少有关子结构数量的重要信息。如果以包括每个子结构的出现频率更新指纹,则可以显著提高ML模型的性能。此外,作者基于开发的ML模型将MOF分为两类,即C2H4选择性和C2H6选择性MOF。如果可以使用基于回归的ML方法对选择性值进行定量预测,则可为先进MOF发现获得更有用和可靠的见解。总之,这项工作表明通过可解释ML模型获得的有见地的特征规范对于高效发现用于气体分离的高性能MOF非常有帮助。 图2. MOF候选物的GCMC衍生选择性 Interpretable machine learning for accelerating the discovery of metal-organic frameworks for ethane/ethylene separation, Chemical Engineering Journal 2022. DOI: 10.1016/j.cej.2022.136651 6. 南信大张磊教授ACS AMI: 高通量计算+机器学习设计二维卤化物钙钛矿 卤化物钙钛矿可进一步在维度和成分上进行设计,并用于储能应用。揭示离子与低维卤化物钙钛矿之间的相互作用对于实现下一代储能装置(如光充电离子电池和离子电容器)至关重要。 在此,南京信息工程大学张磊教授等人进行了密度泛函理论(DFT)计算和机器学习(ML)研究,以评估离子与二维卤化物钙钛矿之间的相互作用对储能应用的影响。首先,作者进行了高通量第一性原理计算,以获得训练/测试数据集中的640个观测值。在特征工程步骤中计算Pearson相关系数以消除冗余特征,然后选择适当的特征(13个)将其用于构建ML模型。此外,为了全面评估特征重要性并避免Pearson方法造成的偏差,作者使用14种不同的排序方法根据特征与输出值的相关性对特征进行排序。接下来,作者比较了六种机器学习算法(KNN、Kriging、随机森林、Rpart、SVM 和Xgboost)的精度,其中Xgboost算法(r = 0.968, R2 = 0.93)实现了最佳精度并被用于预测虚拟空间。 图1. 整个机器学习过程的流程图 其中,虚拟空间由各种离子/A2BX4系统的吸附能组成,其中离子包括Li+、Zn2+、K+、Na+、Al3+、Ca2+、Mg2+和F–,A位物种包括Li、Na、K、Rb、和 Cs,B位物种指Ge、Sn、Pb,X位物种指F、Cl、Br 和I。通过Xgboost算法预测由11976个二维离子/钙钛矿系统组成的数据库,然后根据无铅和卤素混合标准筛选材料。最终,预测集中的5个示例离子/钙钛矿系统,即Li+/K2GeClBr3、K+/Rb2SnFBr3、K+/Rb2SnBr3I、Na+/Cs2SnFCl2I和Na+/LiCsSnFBr2I被建议作为离子电容器的潜在候选者。作者通过第一性原理和分子动力学进一步评估选定的材料候选物,并解释其光电特性和稳定性。总之,这项基于ML的研究为开发用于太阳能可充电离子电容器和钙钛矿基离子电池的二维卤化物钙钛矿材料提供了参考。 图2. 机器学习预测与第一性原理计算的5种候选材料吸附能比较 Designing Two-Dimensional Halide Perovskites Based on High-Throughput Calculations and Machine Learning, ACS Applied Materials & Interfaces 2022. DOI: 10.1021/acsami.2c00564 原创文章,作者:v-suan,如若转载,请注明来源华算科技,注明出处:https://www.v-suan.com/index.php/2023/10/14/adf532b0d5/ 机器学习 赞 (0) 0 生成海报 相关推荐 哈工大ACS Energy Letters:构建界面O2积累微环境,促进电化学H2O2生产 2022年12月13日 周伟东Angew:多层陶瓷固态电解质解决LLZTO/Li界面问题! 2023年10月29日 同济陈作锋Nano Research:Co-Ni3N/CC纳米片助力PET升级循环,并产生H2 2022年11月8日 固态锂金属电池,循环>5000次!孙学良院士&莫一非,重磅Nature Nanotechnology! 2024年11月27日 Advanced Science:首次报道!MnFeCoNiCu HEA NPs优异类POD活性 2023年11月6日 赵仕俊/吴正刚npj Comput. Mater.: 机器学习指导设计高熵碳化物陶瓷 2023年10月15日