1. 加州大学伯克利分校Science子刊: 监督学习预测蛋白质对碳纳米管的吸附
工程纳米粒子有利于生物技术应用,包括生物分子传感和递送。然而,在生物系统中测试纳米技术的兼容性和功能需要一种启发式方法,其中不可预测的蛋白质电晕形成阻碍了其有效实施。
在此,美国加州大学伯克利分校Markita P. Landry等人开发了一个分类器来研究蛋白质的氨基酸序列与蛋白质、碳纳米管二者结合倾向之间的关系。首先,该研究旨在预测在生物环境中预期哪些蛋白质-单壁碳纳米管(SWCNT)相互作用,这将为纳米粒子的有效生物应用的抗生物污染策略的实施提供信息。
第二个目标是预测SWCNT的高亲和力蛋白质结合剂及与这种结合亲和力相关的蛋白质特征,以改进蛋白质-纳米颗粒构建体设计的过程。为此,构建并优化了一个随机森林分类器(RFC)并将其应用于SWCNT上的蛋白质吸附。作者将蛋白质特性(源自蛋白质序列数据)与蛋白质是否处于SWCNT上的电晕阶段(通过基于质谱的定量蛋白质组学实验确定)联系起来。
图1. 不同训练数据集和不同蛋白质特征输入的分类器性能结果
结果显示,应用监督学习方法开发的分类器来预测单链DNA功能化SWCNT上的蛋白质吸附准确率(Accuracy)为78%,AUC为76%,精确率(Precision)为 70%,召回率为65%。研究表明,与SWCNT结合可能性增加相关的蛋白质特征包括高含量的溶剂暴露的甘氨酸和非二级结构相关的氨基酸。这意味着构象更灵活的蛋白质可以适应高度弯曲的SWCNT表面并最大化有利的表面接触,而内部更稳定的蛋白质不太可能重新定向并与纳米管表面结合。
为了评估其预测能力,作者用一组新的蛋白质测试模型并进行定量蛋白质吸附实验以验证模型在电晕内外的预测,结果表明该分类器能够快速确定从新蛋白质组进入电晕阶段的蛋白质。因此,该研究开发的分类器为解决预测蛋白质-纳米粒子相互作用这一难题迈出了关键一步。
图2. 蛋白质与SWCNT结合的实验验证
Supervised learning model predicts protein adsorption to carbon nanotubes, Science Advances 2022. DOI: 10.1126/sciadv.abm0898
2. 重大孙宽/郑玉杰Adv.Sci.: 机器学习+量子化学用于开发高效非富勒烯受体
Y6及其衍生物大大提高了有机光伏(OPV)的功率转换效率(PCE)。通过研究这些材料的化学结构和性能之间的关系,进一步开发高性能的Y6衍生物受体材料,将有助于加速OPV的发展。
在此,重庆大学孙宽研究员及郑玉杰等人采用机器学习和量子化学相结合的方法用于了解结构-性质关系并开发新的OPV受体材料。作者建立了一个以Y6及其衍生物为受体材料的OPV数据库,供体材料仅限于PBDB-T或PBDB-TF(PM6)。受体分子分为三部分,即末端受体单元(A1)、供体单元(D1)和核心受体单元(A2),并由改进的one-hot代码编码作为机器学习的输入。基于随机森林(RF)的机器学习模型算法显示出良好的预测能力,用于筛选所有可能的分子结构形成的化学空间。最终,该机器学习模型筛选出22种新的高潜力OPV受体材料,预计PCE大于17%。
图1. 机器学习预测的5种典型高性能受体分子及其PCE
与发现的高性能分子相关的趋势表明,具有中等长度侧链的Y6衍生物具有更高的性能。对五个具有相同供体单元但具有不同受体单元的高性能分子进行的量子化学计算表明,末端受体单元主要影响前沿分子轨道能级和分子表面的静电势,进而影响OPV器件的性能。
因此,这项工作已经筛选出一系列具有高潜力的OPV受体材料,为高性能OPV材料的发展提供了合理的设计指导。该方法不仅可以用于研究OPV材料的分子结构与OPV器件的PCE之间的关系,还可以扩展到其他材料系统以快速发现材料,并可以为新型有前途的OPV材料设计提供合理的框架。
图2. 量子化学计算5种受体分子不同光电特性的根源
High-Efficiency Non-Fullerene Acceptors Developed by Machine Learning and Quantum Chemistry, Advanced Science 2022. DOI: 10.1002/advs.202104742
3. 北理工王金亮JMCA: 机器学习+分子动力学筛选有机太阳能电池的有效小分子受体
有机太阳能电池(OSC)是未来商业化最有希望的候选者。为了快速实现这一目标,可以通过设计新材料并预测其性能来加速这一过程,而无需进行实验以减少潜在目标的数量。
在此,北京理工大学王金亮教授等人引入了多维设计和发现管道,以系统化材料发现并减少对偶然方法的依赖。具体而言,作者根据从文献中收集的数据进行训练机器学习模型以预测各种特性,例如能级(HOMO和LUMO)、UV/可见光吸收最大值(在溶液和薄膜中)和功率转换效率(PCE)。
根据预测的特性,作者设计和筛选了大约5000个新的小分子受体(SMA),其中1700个与PBT7-Th 能级不匹配的SMA被过滤掉。此外,没有进一步考虑蓝移吸收最大值,而是根据预测的UV/可见吸收最大值将筛选的SMA数量减少到2350个。然后根据预测的PCE 进一步筛选,最终选择了100多个PCE高于13%的 SMA。
图1. 筛选基于PBT7-Th:SMA的OSC设计SMA的管道
此外,作者使用分子动力学(MD)模拟研究PBT7-Th和SMA的混合。基于Flory-Huggins参数研究PBT7-Th:SMAs共混物的混合行为,多步筛选将增加获得有效候选者的机会,最终选择了15个与PBT7-Th平衡混合的SMA。最后,使用普通IDTT内核的最佳预测 PCE 超过15%,该数值远好于报道的结果。作者相信,该研究开发的具有亚秒计算成本的筛选流程将帮助实验人员为基于PBT7-Th的OSC合成高效的SMA。这种方法可用于测试假设分子的大型数据库,并稍作修改后还可以为其他供体选择有希望的受体材料。
图2. 最终确定的15个与PBT7-Th平衡混合的SMA
Machine learning and molecular dynamics simulations assisted evolutionary design and discovery pipeline to screen the efficient small molecule acceptors for PTB7-Th based organic solar cells with over 15% efficiency, Journal of Materials Chemistry A 2022. DOI: 10.1039/D1TA09762H
4. JMCA: 多变量贝叶斯优化筛选Na3PS4家族中高Na+电导率组合物
Na3PS4是典型的室温(RT)、Na+导电固态电解质(SSE),已知通过等价/异价取代对该化合物的各种组成改性可提供与液体电解质相当的高离子电导率(σ离子)。而传统的实验设计方法会产生巨大的劳动力/经济负担,因此无法找到最佳组合物。
在此,韩国顺天国立大学Myoungho Pyo及世宗大学Kee-Sun Sohn等人采用基于贝叶斯优化(BO)算法的主动学习,以在多维搜索空间中发现具有高σ离子的新组合物。BO在材料研究中引起了极大的关注,因为它成功地用作材料发现的闭环优化策略。用于BO实现的系统设计的搜索空间由组合变量(在(Na, A)3δ(M1, M2, W)(Q, X)4中,A = Ca2+, Y3+, La3+;M1= P5+, Sb5+; M2 = Si4+, Ge4+, Sn4+;Q = S2-, Se2-, Te2-;X = Cl–, Br–, I–)和处理变量(合成温度和时间)组成,最终作者发现了一种具有高σ离子的新化合物即Na2. 81(W0.22Si0.10Sb0.68)S3.93Br0.07,并通过逻辑推理进一步细化。
图1. 组成搜索空间和边界条件的示意图
最终,作者确定了无溴Na2.88(W0.22Si0.10Sb0.68)S4为搜索空间的最优组合物。与迄今为止报道的Na+ SSE相比,通过传统的低压颗粒制备的Si4+/W6+的重掺杂Na3SbS4在RT和-20 °C下分别显示出最高的σ离子(20.2和7.4 mS cm-1)之一,这可归因于Na3SbS4家族中显著较低的活化势垒(0.14 eV)。
此外,其表现出比RT下的σ离子低五个数量级的低电子电导率(2×10-7 S cm-1),在对称电池 (Na15Sn4||Na15Sn4) 中也证实了稳定的Na电镀/剥离行为。这一系列的研究表明,Na2.88(W0.22Si0.10Sb0.68)S4可能是Na3PS4家族中一种很有前途的SSE。
图2. 基于BO算法的筛选结果
Multi-variable Bayesian optimization for a new composition with high Na+ conductivity in the Na3PS4 family, Journal of Materials Chemistry A 2022. DOI: 10.1039/D1TA09886A
5. 彭艳/郭恒宇/李忠杰ACS AMI: 人工神经网络实现摩擦纳米发电机界面缺陷检测与识别
摩擦纳米发电机(TENGs)作为一种新型的能量收集器,自十年前提出以来,已经取得了明显的技术进步。为了给TENGs提供稳健的工作环境,大多数TENGs 被设计成密封结构以与外部环境隔离,因此无法直接监控其运行状况。
在此,上海大学彭艳教授、李忠杰及重庆大学郭恒宇教授等人首次提出了一种人工神经网络(ANN),用于通过训练电压波形检测和识别TENGs的界面缺陷。以TENGs的电信号为训练对象实现非接触式缺陷检测,即无需拆卸即可从结构外部检测内部状态。此外,TENGs的运行状况可以通过计算机进行监控,无需专业设备和专业工程师进行现场检测。同时,作者首次对TENGs的各种界面缺陷进行了分类并讨论了原因。然后,针对二分类(缺陷检测)和多分类(缺陷识别)场景对ANN模型进行优化,使模型对低分辨率样本表现出高灵敏度并保持低耗时。
图1. ANN模型结构和数据集的样本分布
结果表明,该模型训练一个epoch耗时2.1秒,100个epoch后缺陷检测识别率为98.9%。同时,该模型成功展示了对低分辨率样本(100×75像素)的学习能力,可识别边缘断裂、粘连、异常振动等六种TENG缺陷,识别率高达93.6%。此外,作者发现软接触TENG比刚性接触 TENG 更容易实现最佳输出。
尽管各种TENG的电压波形相似,但在未来的工作中,该模型对其他TENG模式的鲁棒性值得研究。通过实验得到电压波形与缺陷的对应关系,因此,在各种应用场景中,需要采集TENG的专有电压波形。总之,该工作为TENGs的故障诊断和智能应用提供了新的策略。
图2. 使用不同ANN模型的七标签分类的准确率和损失曲线
Interface Defect Detection and Identification of Triboelectric Nanogenerators via Voltage Waveforms and Artificial Neural Network, ACS Applied Materials & Interfaces 2022. DOI: 10.1021/acsami.1c19718
6. 凯斯西储大学张慧春教授ES&T: 深度神经网络预测有机化学中溶质描述符
溶质描述符已广泛用于通过多参数线性自由能关系(pp-LFER)模拟化学转移过程。然而,对于新的有机化学品,准确、快速地获得这些描述符仍然存在很大困难。
在此,美国凯斯西储大学张慧春教授等人开发了预测模型(PaDEL-DNN),该模型仅需要化学品的SMILES(简化分子线性输入规范),即可使用深度神经网络 (DNN)和开源化学品准确估计pp-LFER描述符包(PaDEL)。
优化的PaDEL-DNN估计的pp-LFER描述符在模拟储存脂质/水分配系数 (logKstorage-lipid/water)、生物浓缩因子(BCF)、水溶性(ESOL)和水合自由能(freesolve)方面表现出良好的性能。然后,假设广泛可用性质(如logP,辛醇-水分配系数)估计值的准确性可以校准较少可用但相关性质的估计值,作者提出了将logP作为评估估计的pp-LFER描述符的总体精度的替代指标。
图1. 本研究的具体工作流程
模型验证表明,当使用pp-LFER描述符对logKstorage-lipid/water、BCF、ESOL和 freesolve进行建模时,对那些估计的pp-LFER描述符被替代指标认为“准确”的化学品实现了约0.1 log单位的低误差。对PaDEL-DNN模型的解释表明,对于给定的测试化学品,训练数据集中有几种(大约5种)“相似”化学品对于准确估计至关重要,而其余不太相似的训练化学品则提供了合理的基准估计。最后,通过将PaDEL-DNN与替代指标相结合,合理地估计了2800多种持久性、生物累积性和有毒化学品的pp-LFER 描述符。总体而言,PaDEL-DNN/替代指标和新估计的描述符将极大地有利于化学转移建模。
图2. DNN模型在预测pp-LFER描述符中的性能
Predicting Solute Descriptors for Organic Chemicals by a Deep Neural Network (DNN) Using Basic Chemical Structures and a Surrogate Metric, Environmental Science & Technology 2022. DOI: 10.1021/acs.est.1c05398
原创文章,作者:v-suan,如若转载,请注明来源华算科技,注明出处:https://www.v-suan.com/index.php/2023/10/15/fe22952a1d/