李远播/刘存ES&T: 机器学习模型预测土壤中植物根系有机污染物的积累 2023年10月15日 下午8:08 • 未全平台发布, 顶刊 • 阅读 11 根系富集因子 (RCF) 是描述生命周期影响评估 (LCIA) 和植物修复潜力评估中土壤中植物有机污染物积累的重要表征参数。然而,由于化学-土壤-植物根系之间复杂的相互作用,建立稳健的预测模型仍然具有挑战性。 在此,中国农科院植物保护研究所李远播研究员及中科院南京土壤所刘存副研究员等人开发了端到端的机器学习模型,通过在具有341 数据点、涵盖72 种化学品的统一RCF数据集上进行训练,将复杂的分子结构关系转移到RCF。首先,从文献中开发了一个数据库,其中包括RCF值、化学特性和描述符、土壤有机质(fOM)和植物脂质含量(f脂质)。 然后使用这个数据库开发了三个模型来预测logRCF,包括线性回归模型,梯度提升回归树(GBRT)模型以及基于分子结构的 GBRT-扩展连通性指纹模型(ECFP),并在预测精度方面比较了模型性能。最后,使用特征重要性分析来进一步分析 GBRT-ECFP 模型结果,以确定影响植物根系积累的关键子结构。 图1. RCF数据集的统计分析 最终,作者通过预测RCF值证明了所提出的GBRT-ECFP模型的有效性,并通过5倍交叉验证评估了预测性能,其中R2值为0.77,平均绝对误差(MAE)为0.22。 此外,作者还揭示了化学、土壤和植物特性之间的非线性关系。子结构重要性分析揭示了分子子结构与RCF之间的关系,进一步的深入分析确定了与 RCF相关的关键化学拓扑子结构(例如,-O、-Cl、芳环和大共轭π系统)。由于其简单性和通用性,GBRT-ECFP模型为LCIA和其他环境评估提供了一个有价值的工具,以更好地表征化学对人类健康和生态系统的风险。 图2. 三种ML模型的预测精度对比 Direct Prediction of Bioaccumulation of Organic Contaminants in Plant Roots from Soils with Machine Learning Models Based on Molecular Structures, Environmental Science & Technology 2021. DOI: 10.1021/acs.est.1c02376 原创文章,作者:v-suan,如若转载,请注明来源华算科技,注明出处:https://www.v-suan.com/index.php/2023/10/15/1775482347/ 电池 赞 (0) 0 生成海报 相关推荐 冯新亮院士等AEM:多功能分子接枝MXene作为高动力学钾离子插层阳极 2024年1月5日 Science关注:科睿唯安推出新指标,是替代IF还是挤掉CiteScore、SJR、SNIP? 2023年11月3日 中科院大连化物所汪国雄,最新AM! 2024年5月11日 CM: 机器学习+自然语言处理总结面向数据的通用实验设计方法 2023年10月15日 浙大姜银珠AFM: 氨基酸诱导界面电荷工程实现高度可逆的锌负极 2023年10月27日 李彦光/王昱沆,最新Angew! 2024年1月9日