大型语言模型作为万能钥匙：用GPT解锁材料科学的秘密

作者 | 澳大利亚新南威尔士大学 Bram Hoex AI for Science 研究组

编辑 | 萝卜皮

近期，大型语言模型（LLM）在自然语言处理（NLP）领域取得了惊人的进步，其中 GPT-3 引领了这一潮流。这些模型具备强大的学习和生成能力，使得它们能够理解和生成自然语言文本。尽管 GPT-3 在新闻生成、翻译和问答等任务上的表现已被广泛研究，但其在科学领域的潜力尚未被充分挖掘。

最近，来自澳大利亚新南威尔士大学的 Bram Hoex AI4Science 研究组提出了一种全新的 NLP 任务，即结构化信息推断（SII），成功利用 GPT-3 从科学文献中获取有价值的科学知识。该任务的成本极低，不需要提供专业性的标注,仅仅依靠综述论文。过去需要数十位顶尖科学家才能完成的科学信息总结，现在通过 GPT-SII 的组合在几秒钟内即可完成。

通过 GPT-SII 的组合，该团队成功更新了两年未更新的钙钛矿太阳能电池FAIR数据库，并利用 GPT 生成的数据库，再次对 LLM 进行 fine-tuned，实现了对钙钛矿太阳能电池和有机太阳能电池组件的电学性能进行精准预测。

引言

最近，大型语言模型（LLM）在自然语言处理（NLP）领域取得了惊人的进步，其中 GPT-3 作为其中一员，引领了这一潮流。这些模型具有强大的学习和生成能力，使它们能够理解和生成自然语言文本。尽管 GPT-3 在诸如新闻生成、翻译和问答等任务上的表现已经被广泛研究，但其在科学领域的潜力尚未得到充分挖掘。本文将重点介绍 GPT-3 在材料科学领域的应用，以及如何利用这种强大的 AI 工具来推动科学研究的发展。

大型语言模型（LLM）简介

大型语言模型（LLM）是一种基于深度学习的自然语言处理（NLP）模型，如 GPT-3、BERT 和 T5 等。这些模型通过从大量文本数据中学习语言规律，从而实现对自然语言的理解和生成。在训练过程中，模型会学习到词汇、语法、语义和语境等各种信息，来处理各种复杂的 NLP 任务。

GPT-3（第三代生成预训练式转换器）是目前最先进的 LLM 之一。该模型由 OpenAI 开发，具有 1750 亿个参数，是迄今为止最大的语言模型。GPT-3 已经在多个 NLP 任务中取得了显著的成果，如机器翻译、问答、文本摘要和代码生成等。然而，尽管 GPT-3 在这些领域取得了巨大成功，但其在科学领域的应用还处于起步阶段。

大语言模型应对科学文本时的困难

在科学领域，之前广泛使用的 BERT 的模型遇到了一些挑战。首先，微调 BERT 模型的过程需要在原始文本中进行详细的标注，这种标注过程要求材料科学家具备一定的自然语言处理（NLP）经验和技能。这不仅使人工标注的成本和难度显著增加，还可能导致标注不一致和信息损失。其次，现有研究显示，通用领域的BERT在科学研究中的表现尚不理想，特别是在处理领域特定术语和复杂关系时。这意味着为了在不同的细分领域取得理想的性能，需要为每个领域单独重新训练和调整BERT模型。这对计算资源和训练数据的需求提出了巨大的挑战，尤其是在处理材料科学这样一个高度专业化和跨学科的领域时。

图：微软在2023.1 月发布的BioGPT 在PubMedQA 表现远超之前BERT架构的模型

GPT-3在材料科学领域的应用

为解决这些问题，研究人员根据 GPT-3 的 encoder-decoder 架构，提出了一种名为结构化信息推断（Structured Information Inference，简称SII）的新任务。SII 任务旨在从非结构化的科学文本中提取分层的、特定领域的材料和器件信息，如成分、结构、制备条件等。与传统的信息提取方法相比，SII 具有更强的领域适应性和灵活性，能够应对科学文本中各种各样的复杂情况。

图：GPT-3在SII任务的工作流程，一段文本输入后，Encoder 负责将文本编码为向量并通过注意力机制等理解文本，Decoder 负责将向量表示反转映射到文本的编码，输出概率最大的结果，即最有可能的结构化信息。这一decoder结构实质上等于智能选择并同时完成NER,RE,ER,II 等NLP 任务

SII 是一种 multi-task learning，包含以下四种 NLP 任务：

命名实体识别（NER）：直接提取信息，如材料名称和温度。

实体标准化（ER)：对信息的表达格式、单位、缩略语等进行标准化。

信息推理（II）：对文章没有出现过，或缺失的信息进行推理。

实体关系提取（RE）：辨别单个实体或实体组之间的联系。

SII 任务的实施过程主要包括以下几个步骤：首先，研究人员根据综述论文或 FAIR 数据集制定一个初始的信息提取方案。这个方案定义了所需提取信息的层次结构、关键属性以及它们之间的关系。接下来，研究人员将方案应用到 GPT-3 的微调过程中，以便让 GPT-3 理解和遵循这个方案。通过这种方式，GPT-3 可以学会如何从非结构化文本中提取所需的结构化信息，并按照预定的格式呈现结果。

经过SII任务训练后，GPT-3 在提取材料科学领域结构化信息方面的表现得到了显著提升。例如，GPT-3 可以根据所提供的文献信息提取出钙钛矿太阳能电池的成分、结构和制备条件等关键信息。同时，GPT-3 还可以处理有关有机光伏器件的文献，提取出与器件相关的重要参数和特性。

图：Fine-tuned GPT-3 在II, ER-U, ER-T 复杂文本任务中的表现

此外，SII 任务还可以帮助研究人员从文献中提取更加丰富和复杂的关系数据。这些数据可以用于构建知识图谱，为研究人员提供全面的材料科学领域知识体系。通过将这些知识应用于实际问题，研究人员可以更加高效地开发新型材料和器件，推动材料科学领域的进步。

值得注意的是，SII 任务得到的数据可以帮助研究人员发现新的材料和器件设计思路。通过分析 GPT-3 生成的高维数据集，研究人员可以探究不同材料参数（如退火时间、退火温度、材料厚度和面积等）对器件性能的影响，从而为实验设计提供有益的指导。

传统的信息提取过程通常需要花费大量时间在阅读文献、整理信息和分析数据上。使用微调的 GPT-3 完成 SII 任务，可以提高信息提取的准确性和效率，科研人员可以快速地获取所需的结构化信息，从而将更多的时间和精力投入到实验研究和创新设计中，节省大量的时间和精力。

此外，SII 任务在跨学科领域的应用也具有广泛的前景。许多科学领域，如生物学、化学和物理学等，都需要从大量的文献中提取和分析结构化信息。SII 任务可以灵活地应用于这些领域，帮助研究人员从海量的非结构化文本中快速获取有价值的知识，从而加速科学研究的进程。

用SII生成的数据库预测材料和器件性能的能力

通过使用经过结构化信息推断（SII）任务训练的 GPT-3，我们可以构建出具有高度结构化的材料和器件数据库。这些数据库中的信息可以为研究人员提供关于材料和器件性能的有价值见解，从而有助于更好地理解和预测材料的性能以及器件的工作原理。

图：Fine-tuned GPT-3 与深度学习算法在预测有机太阳能电池的 PCE 的效果比较（MAE: Mean Absolute Errors）

在材料科学领域，通过对 GPT-3 进行 SII 任务训练，可以有效地从大量文献中提取出关键的材料参数和性能指标。这些数据可以用于训练机器学习模型，从而预测新材料的性能和可能的应用领域。这对于加速材料研究和发现具有重要的意义。

在器件设计方面，通过 SII 任务生成的数据库，研究人员可以了解不同器件结构和工艺参数对器件性能的影响，从而为优化器件设计提供依据。此外，这些数据库还可以用于探索新型器件的可能性，为实验研究和创新设计提供灵感。

值得注意的是，使用SII任务生成的数据库预测材料和器件性能时，还需要充分考虑模型的局限性。例如，GPT-3 的预测能力可能受限于其训练数据中的知识范围，以及模型本身的复杂度。因此，在实际应用中，研究人员需要谨慎对待模型的预测结果，并结合实验数据进行验证和优化。

总之，利用SII任务生成的数据库预测材料和器件性能具有巨大的潜力。这一方法可以帮助研究人员更好地理解材料性能和器件工作原理，加速新材料的研究和发现，以及优化器件设计。同时，我们也应充分认识到模型的局限性，结合实验数据，不断提高预测的准确性和可靠性。

总结

在本文中，我们重点介绍了 GPT-3 在材料科学领域的应用及其潜力。通过微调训练 GPT-3，研究人员可以从大量科学文献中提取有价值的信息，并预测材料性能和器件性能。此外，它们还可以帮助研究人员了解不同器件结构和工艺参数对器件性能的影响，从而为优化器件设计提供依据。随着 GPT-3 等大型语言模型技术的不断发展和完善，我们有理由相信，它们将在未来的科学研究中发挥更加重要的作用。

合作研究组织：新南威尔士大学，香港城市大学，悉尼大学，墨尔本大学，DARE 研究中心，律动科技。

原创文章，作者：计算搬砖工程师，如若转载，请注明来源华算科技，注明出处：https://www.v-suan.com/index.php/2024/04/05/8e47634e79/

大型语言模型作为万能钥匙：用GPT解锁材料科学的秘密

相关推荐

分享到：