成果简介
在此,来自美国斯坦福大学的RHIJU DAS & RON O. DROR等研究者引入了一种机器学习方法,尽管只接受了18种已知RNA结构的训练,但它可以在不假设其定义特征的情况下识别出准确的结构模型。该论文以题为“Geometric deep learning of RNA structure”发表在国际顶级期刊Science上。
RNA分子,像蛋白质一样,可折叠成定义良好的三维(3D)结构,以执行广泛的细胞功能,如催化反应、调节基因表达、调节先天免疫和感知小分子等。了解这些结构,对于理解RNA功能机制、设计合成RNA和发现RNA靶向药物至关重要。人类目前对RNA结构的了解,远远落后于对蛋白质结构的了解:人类基因组转录成RNA的部分大约是蛋白质编码的30倍,但可用的RNA结构的数量是蛋白质的1%。因此,对RNA三维结构的计算预测具有重大意义。
尽管经过几十年的努力,但预测RNA的3D结构,仍然是一个巨大的挑战,已经被证明比预测蛋白质结构更困难。对于蛋白质,最先进的预测方法充分利用了相关蛋白质的序列或结构。这种方法在RNA上成功的几率要小得多,一方面是因为紧密相关RNA的模板结构可用的频率要低得多,另一方面是因为序列协同进化信息提供的关于RNA中三级接触的信息较少。此外,设计一个可靠地区分准确的RNA结构模型和不太准确的RNA结构模型的评分函数,已经被证明是困难的,因为能量有利的RNA结构的特征还没有被充分理解。
这个难题引出了另一个问题,即算法是否可以从已知的RNA结构中学习,以评估不相关RNA结构模型的准确性。这样的机器学习任务带来了两大挑战:(i)避免假设哪些结构特征,可能区分精确的模型和不精确的模型;以及(ii)从有限数量的RNA结构中学习,已经通过实验确定。不需要预定义功能的深度学习方法,在许多领域取得了显著的进展,但它们的成功在很大程度上仅限于数据丰富的领域。
图文解析
图1 ARES网络
ARES不包括:任何关于结构模型的哪些特征与评估其准确性有关的假设。例如,ARES对双螺旋、碱基对、核苷酸或氢键没有预先的概念。ARES背后的方法根本不是针对RNA的,因此适用于任何类型的分子系统。
ARES网络的初始层设计用于识别结构主题,这些主题的身份是在训练过程中学习的,而不是预先指定的。每一层根据周围原子的几何排列和前一层计算的特征为每个原子计算若干特征。第一层的唯一输入是每个原子的三维坐标和化学元素类型。
这些初始网络层的结构认识到,给定结构基序的实例通常是不同的方向和位置,较粗的基序(如螺旋)通常包含较细的基序(如碱基对)的特定安排。每一层在旋转和平动上都是等价的——也就是说,其输入的旋转或平动导致其输出的相应变换。这个属性捕获了物理对于参考系旋转或平移的不变性,但确保了已识别主题的方向和位置被传递到网络的下一层,该层可以使用这个信息来识别更粗尺度的主题。
ARES的初始层在局部收集信息,其余层在所有原子间收集信息。这种组合允许ARES预测一个全局属性(在这种情况下,是结构模型的准确性),同时详细捕捉局部结构主题和原子间的相互作用。
为了训练ARES,研究者使用了18个RNA分子,这些RNA分子的实验确定结构包括从1994年至2006年之间发表的。研究者使用Rosetta FARFAR2采样方法,生成了每个RNA的1000个结构模型,而没有使用任何已知的结构。然后,研究者优化了ARES神经网络的参数,使其输出与每个模型对应结构的RMSD尽可能接近。
在第一个基准测试中,ARES大大优于其他三个评分函数(图2A-C)。当使用ARES时,62%的基准RNAs的单一最佳得分结构模型接近原生(<2 Å RMSD),而Rosetta、RASP和3dRNAscore分别为43、33和5%。在使用ARES时,10个评分最高的模型包括81%的基准RNA的至少一个近原生模型,而Rosetta、RASP和3dRNAscore分别为48、48和33%。每个得分最高的近似原生模型,都是在原生结构的能量约束下生成的。
图2 在识别准确的结构模型方面,ARES大大优于以往的评分函数
在每一种情况下,通过RMSD和变形指数测量,该过程产生了任何参与者提交的最精确的模型(图3)。对于每个RNA,参赛作品至少由9种其他方法产生,包括使用相同的FARFAR2候选结构模型,但使用Das实验室人类专家的判断或Rosetta(2020)评分功能从中选择的方法。研究者还发现,ARES评分函数的表现优于应用于同一组候选模型的各种其他评分函数,包括最近基于卷积神经网络的机器学习方法。
图3 ARES在RNA结构盲预测方面取得了最先进的结果
对训练后的ARES网络的分析表明,它自发地发现了RNA结构的某些基本特征。例如,ARES可以正确预测双螺旋中两股之间的最佳距离。,允许理想碱基配对的距离(图4A)。此外,ARES从一组RNA结构中提取的高级特征,反映了每个结构中的氢键和Watson-Crick碱基配对的程度(图4B),尽管研究者从未告知ARES氢键和碱基配对是RNA结构形成的关键驱动因素。
图4 ARES学习识别没有预先指定的RNA结构的关键特征
尽管只使用少量结构进行训练,但ARES仍能超越之前的技术水平,这表明类似的神经网络可能会在其他领域取得重大进展,包括3D分子结构,而在3D分子结构领域,数据常常是有限的,收集起来也很昂贵。除了结构预测,例子可能包括分子设计(包括蛋白质或核酸等大分子和小分子药物),估计纳米粒子半导体的电磁特性,以及预测合金和其他材料的力学性能。
原文链接
Townshend, Raphael JL, et al. “Geometric deep learning of RNA structure.” Science 373.6558 (2021): 1047-1051.
原创文章,作者:v-suan,如若转载,请注明来源华算科技,注明出处:https://www.v-suan.com/index.php/2023/10/15/4e4f296e8d/