他用ChatGPT预测MOF合成,发表第88篇JACS!

他用ChatGPT预测MOF合成,发表第88篇JACS!
成果简介
加州大学伯克利分校Omar M. Yaghi院士团队通过使用提示工程(Prompt Engineering)来指导ChatGPT从不同格式和风格的科学文献中,自动挖掘出金属有机框架(MOF)合成条件的文本信息。这有效地减少了由ChatGPT产生的信息误差倾向,同时,这也克服了以往在科学领域使用大型语言模型(LLMs)所面临的挑战性问题。
该方法包括开发一个工作流程,实现三个不同的文本挖掘过程,由ChatGPT本身编程。它们都支持解析、搜索、过滤、分类、汇总和数据统一,并在人工、速度和准确性之间进行不同的权衡。
作者在该系统提取26257个不同的合成参数,涉及来自同行评审研究文章的大约800个MOFs。这个过程结合了本文所提出的的化学提示(Chem-Prompt)工程策略来指导ChatGPT进行文本挖掘,从而获得了良好的精度、召回率以及90-99%的F1分数。利用文本挖掘构建的数据集,作者构建了预测MOF实验结晶结果准确率超过87%的机器学习模型,初步识别了影响MOF结晶的重要因素。
此外,作者还开发了一个可靠的基于数据的MOF聊天机器人来回答有关化学反应和合成过程的问题。考虑到使用ChatGPT的过程以统一的格式可靠地挖掘和制表各种MOF合成信息,同时只使用叙述语言,不需要编码专业知识,可以预计该ChatGPT化学助手将在各种其他化学子学科中扮演着重要角色。
他用ChatGPT预测MOF合成,发表第88篇JACS!
相关工作以《ChatGPT Chemistry Assistant for Text Mining and the Prediction of MOF Synthesis》为题在《Journal of the American Chemical Society》上发表论文。同时,这也是Omar M. Yaghi院士在《Journal of the American Chemical Society》上发表的第88篇论文。
他用ChatGPT预测MOF合成,发表第88篇JACS!
图文导读
他用ChatGPT预测MOF合成,发表第88篇JACS!
图1. ChatGPT化学助手工作流程的示意图
在与化学相关的任务领域,ChatGPT的性能可以通过使用提示工程(PE)得到显著提高,这是一种精心设计提示的方法,可以引导ChatGPT生成精确和相关的信息。作者提出了以化学为重点的应用中提示工程的三个基本原则,称为化学提示工程。
首先,需要制定提示,以避免从ChatGPT中引出捏造或误导性的内容。如下表所示。
他用ChatGPT预测MOF合成,发表第88篇JACS!
例如,当被要求在没有任何额外提示或上下文的情况下提供MOF的合成条件时,ChatGPT可能会识别出MOF-99999不存在,但会为现有的名称为MOF-41、MOF-419和MOF-519的化合物生成合成条件。因此,在问题之后有额外的提示,可以最大限度地减少ChatGPT产生误差,并迫使ChatGPT根据其知识回答问题,如下表所示。
他用ChatGPT预测MOF合成,发表第88篇JACS!
在为ChatGPT设计提示以处理与化学信息相关的文本和问题时,这应该是首先要遵循的原则。
其次,需要实施详细指示,在提示中提供明确的指示,以帮助ChatGPT理解上下文和期望的响应格式。通过将详细的指导和上下文合并到提示中,我们可以促进ChatGPT更集中和准确的响应。在化学相关的任务中,这种方法缩小了潜在的答案空间,减少了不相关或模棱两可的回答的可能性。
最后是请求结构化输出,其中包括合并有组织且定义良好的响应模板或指令,以促进数据提取。结构化的输出能够有效地提取和解释关键信息,这反过来又可以大大促进该领域的研究和知识的进步。
他用ChatGPT预测MOF合成,发表第88篇JACS!
图2. ChemPrompt工程的三个基本原则
通过结合上述这些原则,生成的提示符可以确保ChatGPT产生准确可靠的结果,最终增强其在处理复杂化学相关任务中的实用性(图2)。进一步采用了交互式提示符改进的思想。在这个思想中,首先要求ChatGPT编写一个提示符,通过给它提供初步的描述和信息来指导它自己。通过对话,为提示添加更具体的细节和注意事项,用一些文本进行测试,一旦获得输出,就可以向ChatGPT提供反馈,并要求它提高提示的质量。
他用ChatGPT预测MOF合成,发表第88篇JACS!
图3. 18248个文本片段嵌入的二维可视化
为了评估该方法的有效性,对嵌入数据进行了可视化探索(图3)。通过降低向量的维数,观察到不同的簇对应于不同的话题。
他用ChatGPT预测MOF合成,发表第88篇JACS!
图4. 由ChatGPT直接管理或代管理的各种数据统一任务的示意图
ChatGPT还有助于文本挖掘后的实体解析(图4)。这一步涉及到标准化数据格式,包括单位、符号和复合表示。对于每个任务,为ChatGPT设计了一个特定的提示符来直接处理数据,或者为ChatGPT生成一个专门的Python代码。
在更简单的情况下,ChatGPT可以直接处理时间和反应温度等转换。对于复杂的计算,利用ChatGPT生成Python代码。例如,为了计算每种金属源的摩尔质量,ChatGPT可以根据给定的化合物公式生成相应的Python代码。为了协调复合对或混合物的表示法,ChatGPT可以将不同的表示法标准化为统一的格式,从而便于后续的数据处理。
他用ChatGPT预测MOF合成,发表第88篇JACS!
图5. 基于ChatGPT的文本挖掘过程的多方面性能分析
通过首先评估每个进程的执行时间消耗来开始性能分析(图5a)。如前所述,进程1中的ChatGPT助手专门接受预先选择的实验部分进行总结。因此,流程1需要人工干预,以识别和提取论文中的合成部分。在本研究中,228篇论文的完整选择过程持续了12小时,平均每篇论文约2.5分钟。这段时间必须被认为是进程1执行的必要时间。
对于总结任务,ChatGPT助手展示出了惊人的能力,平均每篇论文花费13秒。考虑到数据集中的某些论文包含超过20个MOF化合物,如果没有人工智能,以传统的方式进行人工总结可能会消耗更长的时间,这一点值得注意。通过加速总结过程,有效减轻了重复工作的负担,为研究人员腾出了宝贵的时间。
流程2以完全自动化的方式操作,将分类和结果传递流程集成到下一个助手进行汇总。毫无疑问,由于ChatGPT优越的文本处理能力,它在速度方面优于流程1的手动识别和摘要组合。最后,流程3,正如预期的那样,是最快的,因为它结合了由嵌入驱动的部分过滤,减少了分类任务,随后提高了速度。
所有论文中11个合成参数中TP标签的分布如图5b所示。需要注意的是,并非所有的MOF合成条件都需要报告全部11个参数。例如,一些合成不涉及调节剂,在这种情况下,要求ChatGPT为相应的列及其数量分配N/A。随后,计算了所有三个过程中每个参数的精度、召回率和F1分数,如图5c和d所示。
所有的方法在识别化合物名称、金属源名称、连接剂名称、调节剂名称和溶剂名称方面都表现出良好的效果。然而,它们在准确确定所涉化学品的数量或体积方面遇到了困难。另一方面,反应温度和反应时间等通常具有固定模式的参数(例如,分别以℃和小时为单位)被所有过程准确识别,从而获得较高的召回率、精度和F1分数。
他用ChatGPT预测MOF合成,发表第88篇JACS!
图6. 分类模型在预测合成MOF结晶态中的性能
考虑到通过基于ChatGPT的文本挖掘程序获得的大量合成条件,利用这些数据来调查、理解和预测MOF材料的结晶条件。在对数据进行统一整理,纳入11个综合参数变量和1个综合结果目标变量后,为每个综合参数设计了各自的描述符,能够稳定表示综合条件的多样性和复杂性,并便于将这些变量转化为适合机器学习算法的特征。
根据提取的合成参数,对金属节点、连接剂、调节剂、溶剂、各自的摩尔比、反应条件等组成了6组化学描述符。为了提取最相关的特征并简化模型,对80%的总数据进行递归特征消除(REF),并进行5倍交叉验证。其余部分在学习过程中被保留为不可见的集合,用于独立评估。
在所涉及的描述符中,前10个最具影响力的描述符是预测MOF结晶结果的关键。这些描述符与化学直觉和我们对MOF晶体生长的理解大致一致。例如,与MOF合成的化学计量有关的描述符,即调节剂与金属的比例、溶剂与金属的比例和连接剂与金属的比例,在排名中占据优先地位。这些描述符反映了精确的化学计量控制在MOF晶体形成中的重要作用,并直接影响结晶过程,在决定MOF晶体的质量和形貌方面起着关键作用。
紧接其后的是描述符“时间”,它突出了反应持续时间在结晶过程中的重要作用。此外,“金属价”描述符强调了金属离子的性质和反应性在MOF合成中的关键作用。价态直接影响MOF的二级构建单元(SBUs)和最终结晶状态。
同时,与分子和连接体相关的描述符会影响合成动力学,影响晶体生长的有序性。总之,这一结果提供了对影响MOF结晶的关键因素的更好理解,并将有助于设计和优化合成条件,以有针对性地制备单晶或多晶MOF。
他用ChatGPT预测MOF合成,发表第88篇JACS!
图7. MOF聊天机器人的集成工作流程
文献信息
ChatGPT Chemistry Assistant for Text Mining and the Prediction of MOF Synthesis,Journal of the American Chemical Society,2023.
https://pubs.acs.org/doi/10.1021/jacs.3c05819

原创文章,作者:Gloria,如若转载,请注明来源华算科技,注明出处:https://www.v-suan.com/index.php/2023/10/01/7f51bf762a/

(0)

相关推荐