目前,包括分子电子学在内的许多领域对使用机器学习(ML)分析数据的研究兴趣越来越大。分子电子学,特别是单分子传输领域,源于学术界对利用有机分子的独特材料特性解决传统固态电子学挑战的兴趣。ML能够对来自单分子运输实验的数据进行更细粒度的分析,但也存在一些阻碍其发展的基本问题。在此,丹麦哥本哈根大学Gemma C. Solomon等人提供了基于来自分子电子学领域,特别是单分子电子传输实验数据的示例,描述了与ML应用相关的关键方面以帮助研究人员避免最常见的陷阱。首先,作者概述了单分子传输实验的研究历史,以便为ML在分子电子学中的使用提供一些直觉。然后,简要介绍了常见的ML方法,如特征提取、监督学习和聚类等。接下来,作者深入探讨了与使用ML相关的主要问题,包括:1)偏差及其在数据分析中的不同表现方式;2)可能由对保留集原理的误解、交叉验证陷阱及过于简单的训练数据等造成的过度拟合;3)建立对模型的信任及不同的指标选择如何影响后续分析;4)无监督学习的使用及其独特的问题集;5)如何使用特征过滤来优化模型并更好地理解模型;6)共享源代码和数据的必要性等。图1. 使用ML分析单分子转运数据的三种不同方法最后,作者展望了未来单分子运输领域中ML研究的未来发展:(1)数据的新表示将使ML算法和研究人员受益,应做更多的研究来探索可提取多少及什么样的信息;(2)更丰富的数据表示也将有助于更广泛地使用传统统计数据;(3)在跟踪不一定属于单个类但可能表现出多个类的特征的情况下,也许更柔和的分类会更有益;(4)降维工具可促进更好地理解高维数据集,如PCA、t-SNE或UMAP等方法。此外,作者还提供了许多用于分析的脚本和数据,可在https://github.com/chem-william/TOM_paper进行访问,本文使用的数据集也可在https://erda.ku.dk/archives/23e862ff4a66f896a7ef635cbec16e0b/published-archive.html访问。作者相信,ML领域与单分子运输领域的潜在结合研究具有很高的潜力。图2. 过滤特征的信息泄漏导致结果偏差Trusting our machines: validating machine learning models for single-molecule transport experiments, Chemical Society Reviews 2022. DOI: 10.1039/D1CS00884F