基于机器学习(ML)的电池设计方法相对较新,但在加速新材料发现、工艺优化和电池寿命预测方面具有重要的前景。电池建模代表了ML的一个有趣和非传统的应用领域,数据集通常很小但可能存在对底层过程的某种程度的物理理解。
在此,美国Aionics公司CEO/斯坦福大学兼职教授Austin D. Sendek等人讨论和分析了几个重要且越来越常见的问题:基于ML的电池建模如何进行、需要多少数据、如何判断模型性能及在小数据体系中构建模型的建议。作者断言,决定小数据、基于物理的ML方法成功可能性的三个关键变量是数据量、可用重要特征的物理信息及数据的潜在维度,而不是任意的数据集大小要求。只要特征集具有足够的信息或选择适当的模型类型,ML模型在从小型数据集构建时便具有高度的预测性。
基于以上推断,作者首先总结了ML模型构建的基础、误差度量、过拟合、特征选择和概率近似正确(PAC)理论等。然后,作者展示了数据集大小和已知物理信息之间在模型性能方面的相互作用,回答了“需要多少数据才能建立模型来预测特定属性或现象”的问题。
图1. 欠拟合、过拟合和过参数化
进一步,作者通过讨论已发表的案例研究并强调许多ML的应用领域,包括固态锂离子电解质的发现、液体电解质/正极/负极/非锂电池材料设计及在循环周期衰减中的应用等,专门讨论了这些原则在电池设计背景下的重要性。随着未来数据库的增长和更易于访问,构建新的、快速的ML模型的机会也将相应增加,数据聚合和传播方面的持续努力对于基于ML方法的持续增长至关重要。
最后,在回顾当前领域时,作者总结了几个“最佳实践”主题:
1)模型在捕获尽可能多的预先存在的领域知识时表现最佳;
2)应仔细考虑模型的灵活性,以避免训练出对于训练集来说过于灵活或僵化的模型(从而分别导致过拟合和欠拟合);
3)ML预测的模拟/实验验证对于验证模型和广泛展示其价值至关重要。
图2. 数据集大小与特征信息对离子电导率预测误差的影响
Machine Learning Modeling for Accelerated Battery Materials Design in the Small Data Regime, Advanced Energy Materials 2022. DOI: 10.1002/aenm.202200553
原创文章,作者:v-suan,如若转载,请注明来源华算科技,注明出处:https://www.v-suan.com/index.php/2023/10/08/1dbdf04759/