李远播/刘存ES&T: 机器学习模型预测土壤中植物根系有机污染物的积累

李远播/刘存ES&T: 机器学习模型预测土壤中植物根系有机污染物的积累
根系富集因子 (RCF) 是描述生命周期影响评估 (LCIA) 和植物修复潜力评估中土壤中植物有机污染物积累的重要表征参数。然而,由于化学-土壤-植物根系之间复杂的相互作用,建立稳健的预测模型仍然具有挑战性。
李远播/刘存ES&T: 机器学习模型预测土壤中植物根系有机污染物的积累
在此,中国农科院植物保护研究所李远播研究员及中科院南京土壤所刘存副研究员等人开发了端到端的机器学习模型,通过在具有341 数据点、涵盖72 种化学品的统一RCF数据集上进行训练,将复杂的分子结构关系转移到RCF。首先,从文献中开发了一个数据库,其中包括RCF值、化学特性和描述符、土壤有机质(fOM)和植物脂质含量(f脂质)。
然后使用这个数据库开发了三个模型来预测logRCF,包括线性回归模型,梯度提升回归树(GBRT)模型以及基于分子结构的 GBRT-扩展连通性指纹模型(ECFP),并在预测精度方面比较了模型性能。最后,使用特征重要性分析来进一步分析 GBRT-ECFP 模型结果,以确定影响植物根系积累的关键子结构。
李远播/刘存ES&T: 机器学习模型预测土壤中植物根系有机污染物的积累
图1. RCF数据集的统计分析
最终,作者通过预测RCF值证明了所提出的GBRT-ECFP模型的有效性,并通过5倍交叉验证评估了预测性能,其中R2值为0.77,平均绝对误差(MAE)为0.22。
此外,作者还揭示了化学、土壤和植物特性之间的非线性关系。子结构重要性分析揭示了分子子结构与RCF之间的关系,进一步的深入分析确定了与 RCF相关的关键化学拓扑子结构(例如,-O、-Cl、芳环和大共轭π系统)。由于其简单性和通用性,GBRT-ECFP模型为LCIA和其他环境评估提供了一个有价值的工具,以更好地表征化学对人类健康和生态系统的风险。
李远播/刘存ES&T: 机器学习模型预测土壤中植物根系有机污染物的积累
图2. 三种ML模型的预测精度对比
Direct Prediction of Bioaccumulation of Organic Contaminants in Plant Roots from Soils with Machine Learning Models Based on Molecular Structures, Environmental Science & Technology 2021. DOI: 10.1021/acs.est.1c02376

原创文章,作者:v-suan,如若转载,请注明来源华算科技,注明出处:https://www.v-suan.com/index.php/2023/10/15/1775482347/

(0)

相关推荐