机器学习(ML)正在对许多研究领域产生影响,在学习基于明确定义的规则或大型高质量数据集的领域中取得了显著的成功。相比之下,当数据集质量较低且包含模型未正确捕获的特征时,预测效果可能会比较一般。一些报道尝试使用ML来预测特定反应的反应条件,似乎只要提供足够数量的文献来构建模型就可以获得准确预测。然而,事实真是如此吗?
在此,美国伊利诺伊大学厄巴纳-香槟分校Martin D. Burke及韩国基础科学研究所(IBS)Bartosz A. Grzybowski教授等人通过案例研究证明,这可能是一种过于乐观的解释,即使有大量精心整理的文献数据,ML方法可能也不会比文献中报道的普遍反应条件的估计效果好很多。
换句话说,这些ML模型并没有提供更多的见解,只是提出了最普遍的反应条件。而这些反应条件本可以通过对文献案例的简单统计获得,这意味着ML没有实现“机器智能”。具体而言,作者基于精心挑选的>10000篇文献数据库并以杂环Suzuki偶联反应作为案例研究,考虑预测最适合于杂芳基-杂芳基或芳香基-杂芳基Suzuki偶联反应给定底物的反应条件。
图1. 预测问题的公式化和基于文献的反应条件统计
对于具有完整条件信息的>10000个反应示例,该反应似乎提供了足以成功实现 ML预测的反应统计数据。在对钯的溶剂、碱、温度和来源进行分类后,作者应用各种神经网络方法(前馈和图卷积)、词嵌入和正样本-无标签(PU)学习方法来开发预测模型。
结果表明,即使搜索空间仅限于溶剂和碱,ML模型也不能提供对最佳反应条件的任何有意义的预测。在所有情况下,ML的表现并不比文献提出的普遍性反应条件好多少。这些结果表明,合成化学中的数据受到了非科学因素的严重影响,例如某些化学家对某些协议的主观偏好,甚至是实验室中当前化学品的可用性。
因此,作者认为,化学中应用ML研究的前进道路是使用自动化协议生成标准化的数据集,特别是在不同条件下进行的多次重复反应,从而客观比较和学习好与坏的条件。
图2. 回归模型的学习结果
Machine Learning May Sometimes Simply Capture Literature Popularity Trends: A Case Study of Heterocyclic Suzuki–Miyaura Coupling, Journal of the American Chemical Society 2022. DOI: 10.1021/jacs.1c12005
原创文章,作者:v-suan,如若转载,请注明来源华算科技,注明出处:https://www.v-suan.com/index.php/2023/10/14/de939c3dd9/