通过机器学习和DFT究进行新型抗氧化肽设计

通过机器学习和DFT究进行新型抗氧化肽设计

什么是抗氧化肽

低浓度的自由基在各种人体生物功能中起着至关重要的作用,包括凋亡和蛋白质磷酸化过程。然而,在人体内过多的自由基往往与阿尔茨海默病、癌症和其他慢性疾病等疾病有关。因此,发现安全、高效且易得的抗氧化剂以预防自由基对细胞的有害影响或减轻其负面影响至关重要。抗氧化肽是一种具有特殊结构的蛋白质片段,它们在体内可以帮助对抗氧化应激。抗氧化肽可以帮助中和这些自由基,减少它们对细胞的损伤,从而保护身体免受疾病和衰老的影响。

通过机器学习和DFT究进行新型抗氧化肽设计

挑战与方法

然而,材料准备、蛋白质提取、水解、纯化和鉴定抗氧化肽可能是一项耗时且很有难度的任务。由Olsen等人收集的数据表明,目前仅存在696种天然来源的抗氧化肽。这说明抗氧化肽化学空间很大,而且还有很大的空间等待我们去探索。为了解决这一问题,机器学习模型提供了一种可以替代传统方法的途径,用于快速发现具有作者所期望的功能的抗氧化肽。在这项研究中,作者首次开发了基于递归神经网络(RNNs)的生成模型,用于新型AOPs的从头设计。考虑到抗氧化剂数据集中仅有696个独特序列,是一个相对较小的数据集,用它做从头开始训练的生成模型是不切实际的。由于抗氧化肽与Specht等人编制的肽序列数据集之间关键氨基酸分布具有相似性。所以,作者使用了该肽序列数据集训练了RNN模型。
图1:用于抗氧化肽设计的传统和从头生成方法流程
通过机器学习和DFT究进行新型抗氧化肽设计
图2:用于抗氧化肽设计的机器学习方法的流程图
通过机器学习和DFT究进行新型抗氧化肽设计

从头抗氧化肽设计的概述图。(a) 基础(预训练)生成模型。(b) 用于预测 AOP 的微调模型。(c) 用于预测生成序列的抗氧化活性的分类模型。根据五重分类评估开发了五个模型。(d) 从微调模型中生成了最多 8 个氨基酸的 5 万条肽序列。(e) 根据生成的肽的新颖性和独特性对其进行过滤。(f)使用抗氧化剂分类模型过滤剩余生成的肽,并基于所有五个分类模型的输出概率将结果与0.99或更大的阈值相交。(g) 两个肽毒性预测网络服务器在 122 个剩余肽序列上的交集。(h) 使用 Levenshtein 距离对剩余序列进行聚类,并选择每个聚类的质心数据点。(i)对12个肽进行DFT计算,并根据其性质选择6个肽。(j) 实施 DPPH 清除测定。(l)实施羟基清除测定。(k)实施溶血测定。

随后,作者采用迁移学习来对作者的模型进行微调,特别是用于生成AOPs。从微调模型获得的所有数据都经过分类,以确定其清除活性。这种分类依赖于一个训练有关抗氧化剂数据集的模型,以及从两个不同服务器评估其毒性。经过这一严格的过滤过程,编制了最终的肽列表。这些肽进一步通过对其序列进行聚类分析,并选择质心肽进行后续研究。密度泛函理论(DFT)计算被用来评估分子属性,包括最高占据分子轨道(HOMO)、最低未占据分子轨道(LUMO)和HOMO–LUMO能隙。这些参数作为本研究中肽抗氧化剂排序的标准。根据这些计算参数,作者选择了六种肽作为进一步调查的候选物。随后,作者通过合成和测试所选择的肽,证明了通过2,2-联苯基-1-苯基肼(DPPH)、羟基和溶血试验,作者将能够识别非溶血性AOPs。所有实施的过程如图2所示。在追求强大的抗氧化肽的过程中,作者采用了多方面的策略,以发现生成的肽是否能够同时展现出抗氧化清除活性并通过利用分子动力学(MD)模拟抑制Keap1蛋白。Keap1-Nrf2蛋白相互作用(PPI)在调节Nrf2方面起着关键作用,Nrf2是一种转录因子,通过控制含有200多个抗氧化反应元件(ARE)的基因的转录来保护细胞免受氧化应激的影响。Keap1与Cullin3-RBX1复合物结合在一起,通过细胞负向结合,促进其泛素化和蛋白质体降解,从而对Nrf2起到负调控作用。氧化应激是各种病理状况的主要促发因素,突显了打破Nrf2/Keap1 PPI的重要性。

通过机器学习和DFT究进行新型抗氧化肽设计

结论

该研究应用机器学习模型进行抗氧化肽(AOPs)的全新设计,并通过优化的生成模型生成了十二个新颖的AOP序列。通过DFT计算,基于它们的EHOMO和Eg对生成的肽进行排名,以识别最有希望用于合成的肽。其中,具有EHOMO为-4.92 eV的GP12肽被认为是一种强大的电子供体,表明其具有卓越的抗氧化性质。为了评估这些肽的抗氧化能力和抗溶血活性,作者合成了EHOMO最高的三种肽(GP9、GP10和GP12)以及另外三种随机选择的肽。结果显示,在六种合成肽中有三种(GP9、GP10和GP12)的抗氧化活性达到了抗坏血酸的水平,并且具有非溶血性质。在计算机生成的肽GP1-GP12存在的情况下,蛋白质的RMSF和FES分析显示不同的序列会引起蛋白质的显著结构变化,影响其稳定性和灵活性。基于MD模拟和抗氧化试验的结果和观察,GP12表现出最佳结果,值得进一步分析其在体外和体内抗氧化活性及对Keap1的活性。可以肯定地说,机器学习方法结合DFT计算和MD分析适用于在未来的前景中自动化肽的设计,无需提取、纯化、合成和测试大量的肽。然而,正如结果所显示的那样,该模型无法为羟基清除试验生成活性的AOPs。由于目前缺乏用可以于评估每种抗氧化剂活性特定测试方法的信息,对创建具有特定活性的抗氧化肽造成了限制。为了解决这些问题,有必要对当前数据集中的所有肽进行高通量筛选,利用特定和固定的抗氧化活性测定方法,如DPPH、羟基和ROS活性来进行筛选。这样不仅可以丰富数据集,还可以全面了解序列中氨基酸之间的相互关系。

原创文章,作者:计算搬砖工程师,如若转载,请注明来源华算科技,注明出处:https://www.v-suan.com/index.php/2024/04/09/644e9a40c2/

(0)

相关推荐