李远播/刘存ES&T: 机器学习模型预测土壤中植物根系有机污染物的积累 2023年10月15日 下午8:08 • 未全平台发布, 顶刊 • 阅读 13 根系富集因子 (RCF) 是描述生命周期影响评估 (LCIA) 和植物修复潜力评估中土壤中植物有机污染物积累的重要表征参数。然而,由于化学-土壤-植物根系之间复杂的相互作用,建立稳健的预测模型仍然具有挑战性。 在此,中国农科院植物保护研究所李远播研究员及中科院南京土壤所刘存副研究员等人开发了端到端的机器学习模型,通过在具有341 数据点、涵盖72 种化学品的统一RCF数据集上进行训练,将复杂的分子结构关系转移到RCF。首先,从文献中开发了一个数据库,其中包括RCF值、化学特性和描述符、土壤有机质(fOM)和植物脂质含量(f脂质)。 然后使用这个数据库开发了三个模型来预测logRCF,包括线性回归模型,梯度提升回归树(GBRT)模型以及基于分子结构的 GBRT-扩展连通性指纹模型(ECFP),并在预测精度方面比较了模型性能。最后,使用特征重要性分析来进一步分析 GBRT-ECFP 模型结果,以确定影响植物根系积累的关键子结构。 图1. RCF数据集的统计分析 最终,作者通过预测RCF值证明了所提出的GBRT-ECFP模型的有效性,并通过5倍交叉验证评估了预测性能,其中R2值为0.77,平均绝对误差(MAE)为0.22。 此外,作者还揭示了化学、土壤和植物特性之间的非线性关系。子结构重要性分析揭示了分子子结构与RCF之间的关系,进一步的深入分析确定了与 RCF相关的关键化学拓扑子结构(例如,-O、-Cl、芳环和大共轭π系统)。由于其简单性和通用性,GBRT-ECFP模型为LCIA和其他环境评估提供了一个有价值的工具,以更好地表征化学对人类健康和生态系统的风险。 图2. 三种ML模型的预测精度对比 Direct Prediction of Bioaccumulation of Organic Contaminants in Plant Roots from Soils with Machine Learning Models Based on Molecular Structures, Environmental Science & Technology 2021. DOI: 10.1021/acs.est.1c02376 原创文章,作者:v-suan,如若转载,请注明来源华算科技,注明出处:https://www.v-suan.com/index.php/2023/10/15/1775482347/ 电池 赞 (0) 0 生成海报 微信扫码分享 相关推荐 南开高学平AFM:Ni-Pt合金催化剂助力锂硫电池1000次稳定循环! 2023年10月14日 厦大汪骋Nano Research:金属有机层在电催化CO2还原中诱导Cu表面的原位纳米结构 2024年2月13日 Nature:首次!协同质子-电子转移电催化形成金属氢化物 2023年11月15日 炸裂!这所C9,一天3篇Science! 2024年8月12日 电化学CO2还原,最新Nature Catalysis! 2024年7月3日 突破!这所双非,今年首篇Science Advances! 2024年11月17日