李远播/刘存ES&T: 机器学习模型预测土壤中植物根系有机污染物的积累 2023年10月15日 下午8:08 • 未全平台发布, 顶刊 • 阅读 11 根系富集因子 (RCF) 是描述生命周期影响评估 (LCIA) 和植物修复潜力评估中土壤中植物有机污染物积累的重要表征参数。然而,由于化学-土壤-植物根系之间复杂的相互作用,建立稳健的预测模型仍然具有挑战性。 在此,中国农科院植物保护研究所李远播研究员及中科院南京土壤所刘存副研究员等人开发了端到端的机器学习模型,通过在具有341 数据点、涵盖72 种化学品的统一RCF数据集上进行训练,将复杂的分子结构关系转移到RCF。首先,从文献中开发了一个数据库,其中包括RCF值、化学特性和描述符、土壤有机质(fOM)和植物脂质含量(f脂质)。 然后使用这个数据库开发了三个模型来预测logRCF,包括线性回归模型,梯度提升回归树(GBRT)模型以及基于分子结构的 GBRT-扩展连通性指纹模型(ECFP),并在预测精度方面比较了模型性能。最后,使用特征重要性分析来进一步分析 GBRT-ECFP 模型结果,以确定影响植物根系积累的关键子结构。 图1. RCF数据集的统计分析 最终,作者通过预测RCF值证明了所提出的GBRT-ECFP模型的有效性,并通过5倍交叉验证评估了预测性能,其中R2值为0.77,平均绝对误差(MAE)为0.22。 此外,作者还揭示了化学、土壤和植物特性之间的非线性关系。子结构重要性分析揭示了分子子结构与RCF之间的关系,进一步的深入分析确定了与 RCF相关的关键化学拓扑子结构(例如,-O、-Cl、芳环和大共轭π系统)。由于其简单性和通用性,GBRT-ECFP模型为LCIA和其他环境评估提供了一个有价值的工具,以更好地表征化学对人类健康和生态系统的风险。 图2. 三种ML模型的预测精度对比 Direct Prediction of Bioaccumulation of Organic Contaminants in Plant Roots from Soils with Machine Learning Models Based on Molecular Structures, Environmental Science & Technology 2021. DOI: 10.1021/acs.est.1c02376 原创文章,作者:v-suan,如若转载,请注明来源华算科技,注明出处:https://www.v-suan.com/index.php/2023/10/15/1775482347/ 电池 赞 (0) 0 生成海报 相关推荐 苏州大学重磅JACS:选择性高达98%,光催化CO₂还原重大突破! 2024年4月16日 Nature子刊:利用AIMD模拟,揭示纳米限制促进CO2在超临界水中的反应 2022年10月29日 徐吉静教授团队Angew.:钛酸钡压电催化剂中的本征应力应变使锂氧电池具有低过电位和长寿命 2023年10月3日 一作+通讯Science,找到金属疲劳的根源,并实现预测! 2023年10月7日 清华何向明/徐宏EEM: 锂离子配位对锂电沉积的影响 2023年10月26日 王春生教授,最新Joule! 2024年2月22日