「GPT-4只是在压缩数据」,马毅团队造出白盒Transformer,可解释的大模型要来了吗?

声明:本文来自微信微信官方账号机心(ID:almosthuman2014)。作者:机器心,经站长之家授权转载发布。

RNA3D的结构预测是一个长期的挑战。

受近期蛋白质结构预测领域取得突破的启发,南开大学、山东大学和北京理工大学的研究团队开发了trRosettaRNA,这是一种基于深度学习的自动RNA3D结构预测方法。

TrRosettaRNA过程包括两个主要步骤:通过变压器网络进行1D和2D几何形状预测;和通过能量最小化的3D结构折叠。基准测试表明,trRosettaRNA优于传统的自动化方法。

在CASP15和RNA-Puzzles实验的盲测中,天然RNA的trRosettaRNA自动预测与人类的顶级预测具有竞争力。当以均方根偏差的z分值衡量时,trRosettaRNA的性能也优于CASP15中其他基于深度学习的方法。

该研究于2023年11月9日发表在《自然通讯》杂志上,标题为“Trrosettana:用变压器网络自动预测RN3D结构”。

学术界对RNA3D的结构预测需求越来越大。

RNA是活细胞中最重要的功能分子类型之一。它参与许多基本的生物和细胞过程,例如,作为遗传信息的转录物,它起催化、支架和结构作用。在过去的几十年里,随着每年新类型ncRNA的发现,人们对转移RNA (tRNA)、核糖体RNA (rRNA)等非编码RNA (ncRNA)的结构和功能的兴趣与日俱增。

与蛋白质类似,ncRNA分子的生物学功能通常由其3D结构决定。然而,由于柔性骨架和弱长程三级相互作用导致的固有结构异质性,通过实验解决RNA的结构比蛋白质更具挑战性。例如,在蛋白质数据库(PDB)中只有大约6000个RNA结构,这远远少于蛋白质结构的数量(大约19万)。因此,迫切需要开发有效的算法来预测RNA3D的结构。

目前,RNA3D的结构预测仍然存在很大的挑战。

目前,RNA3D的结构预测方法可以分为两大类:基于模板的方法和从头算方法。基于模板的方法使用PDB中的同源模板来预测靶结构。例如,ModeRNA和MMB等代表性方法通过减少同源结构的采样时间空来工作。一般来说,当PDB中存在同源模板时,基于模板的方法预测的结构模型是准确的。然而,由于已知RNA结构数量有限,RNA序列比对困难,基于模板的方法进展缓慢。

相反,从头计算方法通过从头开始模拟折叠过程来构建3D构象。通过分子动力学模拟或片段组装,FARNA5、FARFAR、FARFAR2、SimRNA、iFoldRNA、RNAComposer和3dRNA已用于一些小RNA(

此外,考虑到RNA结构折叠的层次性,一些方法从二级结构衍生出3D结构,如Vfold和MC-Fold。它们非常快,但是建模精度很大程度上取决于输入二级结构的质量。RNA-Puzzles实验表明,准确预测结构复杂的大RNA的结构仍然是一个巨大的挑战。

深度学习用于RNA3D的结构预测

深度学习最近被用于改进从头RNAi 3D的结构预测。残差卷积网络(ResNet)对核苷酸间接触的预测精度约为DCA的两倍,在一定程度上改善了三维结构预测。结果表明,FARFAR2协议通过从ARES中选择模型,预测了RNA拼图盲测中四个靶标的最准确模型。受AlphaFold2成功的启发,科学家们开发了一些基于深度学习的新方法,如DeepFoldRNA、RoseTTAFoldNA和RhoFold。

在最新的工作中,南开大学、山东大学和北京理工大学的研究团队开发了基于深度学习的RNA3D自动结构预测方法trRosettaRNA。其部分灵感来源于深度学习在蛋白质结构预测中的成功应用,尤其是在AlphaFold2和trRosetta中的成功应用。基准测试和盲测表明trRosettaRNA有望提高RNA结构预测。

trRosettaRNA的结构如图1所示。从RNA的核苷酸序列开始,通过rMSA和SPOT-RNA分别产生多重序列比对(MSA)和二级结构。然后它们被转换成MSA表示和成对表示,然后它们被输入到一个变换器网络(名为RNAformer)来预测1D和2D几何。与trRosetta类似,这些几何形状被转换成约束,以基于能量最小化来指导3D结构折叠的最终步骤。除非另有说明,下面提到的RMSD是通过使用RNA-Puzzles社区提供的评估工具包考虑所有原子来计算的。

图1:1:trRosettaRNA的整体架构。(来源:论文)

研究人员使用两个独立的数据集和两个盲测来严格评估trRosettaRNA。基准测试表明,trRosettaRNA预测的模型比其他自动化方法更准确。TrRosettaRNA在RNA-Puzzles(3个靶标)和CASP15(12个靶标)两个实验中做了盲评。RNA-Puzzles实验表明,Trrosetta的自动预测与人类对三分之二目标的预测具有竞争力。CASP15实验表明,trRosettaRNA在积累基于RMSD的Z值方面优于其他基于深度学习的方法。该方法在8种天然RNA上的准确率相当于顶级人类种群,虽然没有人为干预。

局限性和未来

然而,研究人员注意到,CASP15盲测中天然RNA的平均RMSD(第一个模型中为14.8)高于两个基准数据集中的RNA(30个独立RNA为8.5,之前20个RNA-Puzzles靶标为10.5)。

建模精度的差异可以用目标的难度和新颖性来解释。

(1)目标难度。大多数CASP15RNA表现出高度的灵活性,可以采用多种构象(除了R1116和R1117)。此外,还有两个二聚体(R1107,R1108)和两个蛋白结合RNA(R1189,R1190),具有许多单链区域。这些特征对SPOT-RNA预测可信的二级结构提出了挑战。为了说明这一点,与20个RNA拼图的目标相比,来自CASP15的8个天然RNA的SPOT-RNA预测的二级结构的平均F1分数要低得多(分别为0.62和0.72)。

(2)目标新颖。非冗余基准数据集中的很大一部分RNA(三分之二,30中的20)与之前已知的RNA高度相似(TM-scorena >: 0.6),这使得它们很容易通过数据驱动的方法(如trRosettaRNA)进行预测。相反,CASP15的RNA没有显示出这样的相似性。

这反映了与trRosettaRNA和本研究中使用的基准相关的局限性。首先,trRosettaRNA的性能容易受到预测的二级结构质量的影响。其次,虽然trRosettaRNA在内部基准测试中取得了令人鼓舞的准确性,但它在新RNA上的性能仍然有限。此外,合成RNA的自动结构预测仍然具有挑战性。

CASP15实验中的盲测表明,RNA结构预测的深度学习方法还处于初级阶段。但随着不断发展,深度学习应该有望推动RNA结构预测。将基于物理的建模融入深度学习是未来改进的方向之一。

一个最直接的替代方法是将其与其他传统方法相结合,并在未来为那些代表性不足的RNA结构优化算法。例如,为了克服已知RNA折叠的偏见,可以使用神经网络(如基于物理学的神经网络)来学习力场或识别/组装局部模式,而不是直接预测全局3D结构。

源代码:https://yanglab.qd.sdu.edu.cn/trRosettaRNA.

未经允许不得转载:科技让生活更美好 » 「GPT-4只是在压缩数据」,马毅团队造出白盒Transformer,可解释的大模型要来了吗?