Clear Sky Science · zh
使用深度学习和中间二维图评估RNA三维结构模型的质量
为何判断RNA形状很重要
在每个细胞内部,RNA分子盘曲并折叠成复杂的三维形状,这些形状有助于控制基因的启闭、指导化学反应,甚至抵御病毒攻击。如今,强大的计算程序可以预测许多此类形状,但科学家仍面临一个基本问题:当计算机为同一段RNA给出数十或数百个候选形状时,哪一个真正接近真实结构?本文介绍了RNArank,一种人工智能工具,旨在通过对RNA三维模型进行评分来解决这个问题,像结构质量检查员一样,帮助研究人员优先关注最可信的预测。

一种新的RNA模型检查器
RNArank的设计目标是评判一个提出的RNA形状的质量,而不需要知道该形状是如何产生的。无论模型来自深度学习系统、基于物理的模拟,还是人工专家,RNArank只看最终的三维坐标。它实际上在问:“这个结构看起来像真实的RNA吗?”这种独立的质量评估非常重要,因为与蛋白质领域(如AlphaFold等工具常常直接给出高度可靠的答案)不同,RNA预测仍然受益于混合多种方法和人工见解——以及一种智能的模型排序方法。
教AI识别良好RNA的特征
为训练RNArank,作者汇集了大约20万份RNA结构,覆盖从明显错误到接近完美的宽广范围。这些结构来源于已知的实验结构,采用多种方法构建,包括现代深度学习预测器、模拟原子运动的分子动力学模拟,以及对准确结构的有意扭曲以生成“诱饵”模型。对于每个模型,团队计算了其与真实、经实验确定的RNA的匹配程度,使用一种针对RNA改进的准确度评分称为lDDTRNA。该评分侧重于重现核苷酸对之间距离的程度,既能捕捉整体折叠也能体现局部细节,同时不过分受分子长度影响。
RNArank如何读取并评分RNA
当RNArank检查新的RNA模型时,它首先将结构转换为三类信息:沿链的序列和主链几何的1D描述、每对核苷酸相互关系的2D描述(它们的距离、估计的相互作用能量以及可能的原子碰撞),以及3D“体素”快照,即捕捉每个核苷酸周围局部原子云的小网格。一个由多部分组成的神经网络将这些线索编织成统一图景,并预测两个中间的2D图:哪些核苷酸可能发生接触,以及每个建模距离相对于未知真实结构可能偏离多少。基于这些图,RNArank重建出每个核苷酸的置信度评分以及整个RNA模型的总体评分。

将方法付诸考验
团队在三个高难度的数据集上对RNArank进行了基准测试:来自蛋白质结构数据库(PDB)的24个新解析RNA,以及两个国际盲测预测竞赛CASP15和CASP16中的RNA目标,在这些竞赛中许多团队在不知道答案的情况下提交模型。在数千个候选结构中,RNArank的评分比几种已建立的基于能量的评分方法和其他深度学习方法更能反映真实模型质量。它在从模型池中挑选出最佳或接近最佳模型方面尤其出色,并且能够识别结构中可能不可靠的部分。作者还证明,RNArank在序列上明显不同于训练时见过的RNA上仍能保持性能,这表明其具有真正的泛化能力而非记忆性。
当前的局限与未来展望
RNArank并非完美:它对那些具有高度柔性的、可能采取多种构象的RNA仍然存在挑战,以及对在大型分子机器中被蛋白质夹持后改变构型的RNA也难以准确评估。然而,它的速度足以在几秒内处理长度为数百核苷酸的多个模型,并且已经在社区范围的测试中帮助自动服务器选择更高质量的预测。通过提供一种与方法无关、仅基于结构的RNA模型判定工具,RNArank为生物学家提供了更锋利的筛选器,将原始计算结果转化为可靠的结构假说,推动该领域向常规、可信的RNA结构预测迈进,并进而深化我们对这些多功能分子如何工作的理解。
引用: Liu, X., Wang, W., Du, Z. et al. Quality assessment of RNA 3D structure models using deep learning and intermediate 2D maps. Commun Biol 9, 293 (2026). https://doi.org/10.1038/s42003-026-09582-2
关键词: RNA三维结构, 深度学习, 模型质量评估, 结构生物信息学, RNArank