第一作者:聂志伟
通讯作者:潘锋、李舜宁、雷凯
通讯单位:北京大学深圳研究生院
新材料的发现主要源于人类直觉,即根据不同物质的组成、结构和性质感知物质的相关性。这种人类直觉需要特定领域的最新知识,而这些知识通常只有相应子领域的专家才能掌握,因此构成了多/跨学科研究的主要障碍。材料科学和人工智能的结合产生了从大量学术出版物中提取和整理材料信息的需求,然而这在复杂的应用领域很难实现,如锂离子电池(LIB)正极需要多个变量来选择材料,使得自动识别文本中的关键术语具有挑战性。
知识图谱是谷歌于2012年首次为搜索引擎提出的,作为一种有效的知识管理工具是实现上述目标的最合适技术之一。在知识图谱中,文本信息以结构化的方式表示,结合关联、融合和推理技术可实现从信息到科学知识的转换。这可以帮助研究人员准确高效地获取和整理以前的研究成果,甚至可以对材料进行定性预测。然而,知识图谱在材料科学中的应用仍处于起步阶段。
在此,北京大学深圳研究生院潘锋教授、李舜宁副研究员及雷凯副研究员(共同通讯)等人开发了一个名为基于双重注意力的材料词嵌入(DATWEM)的语义表示框架,通过多源信息融合来细化词嵌入并将其用于LIB正极的文献挖掘。由此产生的词嵌入偏向于特定领域的知识,并且可检测材料之间的深层关联以用于目标应用。基于这个框架,作者建立了一个专门用于LIB正极的语义知识图谱,在面对大型语料库时表现出可迁移性和较强的鲁棒性。该知识图谱可从科学文献中揭示潜在的材料关系,甚至发现以前尚未被用作正极的候选材料。
这项研究为实现基于文本挖掘的复杂材料系统的知识管理提供了一条长期寻求的途径,而几乎不需领域专业知识。该工作以“Automating Materials Exploration with a Semantic Knowledge Graph for Li-Ion Battery Cathodes”为题发表于国际顶级期刊Advanced Functional Materials。
要点1:DATWEM的组成
DATWEM框架包含两个独立的词嵌入模块,分别编码无机材料和正极材料语料库。从无机材料语料库中获得的词嵌入由双向长短期记忆(BiLSTM)层处理,然后将词的初始表示输入到注意力模块中。在这个阶段,将从正极材料语料库中获得的领域知识整合到这些词嵌入中。然后,将关键词模块的词嵌入输入DATWEM框架并经过第二个注意力模块实现信息融合。通过以上多源信息融合实现了无机材料、LIB正极和文章主要描述符的信息整合,从而有效捕获特定领域信息并将其转换为语义表示。
构建LIB正极材料知识图谱的流程包括4个步骤:首先,使用one-hot编码对材料词进行矢量化。接下来,在词嵌入过程中将高维向量压缩为低维向量。在对不同语料库中的词嵌入进行单独训练后,将其作为属性输入DATWEM然后生成最终的词嵌入。在分布假设下,词嵌入之间的余弦相似度可用来衡量两个主题语义之间的相关性。据此,最终构建了LIB正极材料的知识图谱,其中节点表示相关材料对应的数据点,边表示它们之间的相关性并使用余弦相似度度量。
通过将DATWEM框架与之前报道的传统词嵌入方案(没有注意力模块)进行比较来评估框架在捕获LIB正极材料之间相关性的能力,考虑了准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1值(F1-score)、PR曲线下面积(AUPR)和ROC曲线下面积(AUROC)6个指标来量化模型的不同能力。结果表明,双注意力模块可以明显改善6项指标中的每一项,从而能够更可靠地表示正极材料的上下文特征。
作者展示了两组正极材料的词嵌入之间的相似程度:代表性材料(LiCoO2、LiMn2O4、Li2MnO3和LiFePO4)和其他与关键词“正极”相似度较高的材料。这些典型正极材料的词嵌入包含与正极应用相关的丰富分布式信息,这保证了高效和高质量的关联,因此发现潜在正极材料的可能性更大。此外,从DATWEM 获得的正极材料关系与该领域研究人员普遍认可的现有知识更加一致。因此,所建立的知识图谱能够有效地从文献中查询和检索用于有针对性应用的材料信息。
基于该知识图谱可识别出潜在的LIB正极材料,通过执行无监督聚类可实现可视化不同材料之间的语义相似性。研究表明,LiCoO2附近的几乎所有材料都是层状过渡金属氧化物(结构相似)或由Co离子组成(组成相似),这两个特征都与其作为LIB正极的用途相关。通过过滤已包含在正极材料语料库中的材料,作者发现了一种分子式为Li2TiMn3O8的潜在正极材料,该材料与LiCoO2通过层状结构这一明显共同特征形成直接连接,通过包含适用于正极材料的可变价元素这一潜在共同特征形成间接连接。因此,借助知识图谱可通过合乎逻辑的方式揭示正极材料之间的联系,从而在已知正极材料的指导下预测新的材料组成。
需要指出,该DATWEM框架是通用的,可应用于各种应用领域探索材料之间的可解释关系。注意力机制可自动从文本中提取专家知识,从而在材料分类和预测方面产生重大改进。这种自动化还意味着知识图谱构建过程在很大程度上独立于相应应用领域的专业知识,从而有助于打破学科界限,并为多功能材料设计提供机会。目前工作的一个潜在限制是文章的摘要提供了非常有限的电化学数据信息,如不包含运行期间的电压分布和结构演变等。因此,有必要将图像数据和全文语料库结合起来,以赋予对电化学性能的预测能力。
在这项研究中,作者基于新的材料科学知识嵌入框架DATWEM构建了LIB正极材料的语义知识图谱。该框架利用注意力机制来细化词嵌入,从而生成富含目标领域先验知识的语义表示。在建立LIB正极应用材料之间的关系时验证了该框架的高精度,从而确保了构建的知识图谱的卓越质量。作者利用该知识图谱证明了自动预测LIB正极材料的可行性,并发现了新的潜在LIB正极材料Li2TiMn3O8。此外,所提出的模型可在材料科学的各个细分领域中迁移,因为它可以指导算法学习特定信息从而大大增强可解释性。总之,这项工作将为材料科学与人工智能的交叉融合铺平道路,从而从数据驱动的角度实现材料创新。
Automating Materials Exploration with a Semantic Knowledge Graph for Li-Ion Battery Cathodes, Advanced Functional Materials 2022. DOI: 10.1002/adfm.202201437
https://onlinelibrary.wiley.com/doi/full/10.1002/adfm.202201437
原创文章,作者:v-suan,如若转载,请注明来源华算科技,注明出处:https://www.v-suan.com/index.php/2023/10/14/cd69f3ab6c/