Clear Sky Science · zh
Retentive Network 促进对长序列的高效 RNA 语言建模
教计算机“读懂”生命的 RNA 信息
你体内每个细胞都充满了 RNA,这种分子将遗传指令转化为生命物质。但今天的生物学家面临着海量 RNA 数据,无法逐行人工读取。本文介绍了 RNAret,一种紧凑的人工智能模型,将 RNA 序列视为语言进行“阅读”,并能处理极长的遗传文本片段。其目标是发现揭示 RNA 如何折叠、相互作用并将功能性蓝图与背景噪音区分开的隐藏模式——同时所需的计算资源远低于现有工具。
观察 RNA 模式的新方法
RNAret 基于一种新兴的 AI 架构——Retentive Network,最初被提出作为 Transformer(驱动大规模人类语言模型的引擎)的继任者。与对序列中每个位置与所有其他位置逐一比较(对长序列代价极高)的做法不同,Retentive 方法允许模型在前进过程中“保留”重要信息,其计算成本仅随序列长度线性增长。作者将这一思想改造成一个在 RNA 上双向查看的编码器,创建了一个约 1200 万参数的轻量模型,能够在常见研究 GPU 上一次处理数千个 RNA 字母。

从数百万无标签 RNA 序列中学习
为了教会 RNAret RNA 的“语法”,团队在 RNAcentral 数据库中对近 3000 万条非编码 RNA 序列进行了训练,未提供关于 RNA 类型或功能的任何标签。他们采用了语言建模借用的策略:遮蔽序列中的小片段,让模型去预测缺失部分。在 60 万多次训练步中,RNAret 稳步学会了预测这些被掩盖的片段,表明它正在捕捉碱基排列的规律。当研究者随后查看模型产生的内部表征时,发现具有相似功能和长度的 RNA 自然而然在低维空间中聚类,尽管模型从未被告知哪些序列属于哪个类别。
将模型应用于实际生物学问题
作者接着测试这些学到的 RNA 模式是否能解决实际问题。首先,RNAret 被微调以判断一种叫 microRNA 的短调控 RNA 是否能与长 RNA 分子上的目标区域结合。在包含超过 27,000 对 microRNA–mRNA 的标准基准测试上,以五个字母为单位读取序列的 RNAret 版本优于若干更大规模的 RNA 语言模型和一个专门的深度学习工具,达到了较高的准确率和 F1 分数。当研究者检查模型的内部“保留分数”时,发现它自然聚焦于 microRNA 的“seed”区——实验上已知驱动结合的关键片段——以及目标 RNA 上的匹配区段,这表明模型的决策基于真实生物学信号,而非虚假的捷径。

重建形状与分类 RNA 类型
随后,团队挑战 RNAret 预测单链 RNA 如何折回自身形成二级结构。使用清洗过的基准数据集,最简单的 RNAret 版本(逐碱基读取)产生的碱基配对接触图在中等长度 RNA 上常常比流行的深度学习和热力学工具更接近实验已知结构。模型的输出结合一项后处理步骤(强制实施哪些碱基可以配对的物理规则),得到了更清晰、噪声更少的预测。在第三项测试中,RNAret 学会了区分人类与小鼠基因组中的蛋白编码 RNA 与长非编码 RNA。由于它能处理全长转录本而无需切分,能够良好应对欠全和超长序列,表现优于经典的开放阅读框方法和多数竞争的 RNA 语言模型,尤其在大型人类数据集上表现突出。
快速、高效且具可扩展性
除了准确性,RNAret 的设计还注重速度。得益于其基于保留的架构,模型在单个高端 GPU 上预训练时每秒能处理约十万级别的 RNA 单元,微调用于结构预测或分类时仍保持高效。尽管尺寸远小于许多近期的生物语言模型,它在多种任务上仍达到或接近最先进的性能。作者将此视为 Retentive Network 可作为生物序列分析的实用、可解释引擎的概念验证。通过进一步调优并扩展至 DNA 和蛋白质,RNAret 及相关模型有望成为将原始序列数据转化为关于分子如何相互作用、折叠并执行生命指令的洞见的日常工具。
引用: Shen, Y., Cao, G., Hu, Y. et al. Retentive Network promotes efficient RNA language modeling of long sequences. Commun Biol 9, 575 (2026). https://doi.org/10.1038/s42003-026-09757-x
关键词: RNA 语言模型, Retentive Network, RNA 结构预测, microRNA 相互作用, 长非编码 RNA