Clear Sky Science · zh

Retentive Network 促进对长序列的高效 RNA 语言建模

2026-03-11 · 返回目录

教计算机“读懂”生命的 RNA 信息

你体内每个细胞都充满了 RNA，这种分子将遗传指令转化为生命物质。但今天的生物学家面临着海量 RNA 数据，无法逐行人工读取。本文介绍了 RNAret，一种紧凑的人工智能模型，将 RNA 序列视为语言进行“阅读”，并能处理极长的遗传文本片段。其目标是发现揭示 RNA 如何折叠、相互作用并将功能性蓝图与背景噪音区分开的隐藏模式——同时所需的计算资源远低于现有工具。

观察 RNA 模式的新方法

RNAret 基于一种新兴的 AI 架构——Retentive Network，最初被提出作为 Transformer（驱动大规模人类语言模型的引擎）的继任者。与对序列中每个位置与所有其他位置逐一比较（对长序列代价极高）的做法不同，Retentive 方法允许模型在前进过程中“保留”重要信息，其计算成本仅随序列长度线性增长。作者将这一思想改造成一个在 RNA 上双向查看的编码器，创建了一个约 1200 万参数的轻量模型，能够在常见研究 GPU 上一次处理数千个 RNA 字母。

从数百万无标签 RNA 序列中学习

为了教会 RNAret RNA 的“语法”，团队在 RNAcentral 数据库中对近 3000 万条非编码 RNA 序列进行了训练，未提供关于 RNA 类型或功能的任何标签。他们采用了语言建模借用的策略：遮蔽序列中的小片段，让模型去预测缺失部分。在 60 万多次训练步中，RNAret 稳步学会了预测这些被掩盖的片段，表明它正在捕捉碱基排列的规律。当研究者随后查看模型产生的内部表征时，发现具有相似功能和长度的 RNA 自然而然在低维空间中聚类，尽管模型从未被告知哪些序列属于哪个类别。

将模型应用于实际生物学问题

作者接着测试这些学到的 RNA 模式是否能解决实际问题。首先，RNAret 被微调以判断一种叫 microRNA 的短调控 RNA 是否能与长 RNA 分子上的目标区域结合。在包含超过 27,000 对 microRNA–mRNA 的标准基准测试上，以五个字母为单位读取序列的 RNAret 版本优于若干更大规模的 RNA 语言模型和一个专门的深度学习工具，达到了较高的准确率和 F1 分数。当研究者检查模型的内部“保留分数”时，发现它自然聚焦于 microRNA 的“seed”区——实验上已知驱动结合的关键片段——以及目标 RNA 上的匹配区段，这表明模型的决策基于真实生物学信号，而非虚假的捷径。

重建形状与分类 RNA 类型

随后，团队挑战 RNAret 预测单链 RNA 如何折回自身形成二级结构。使用清洗过的基准数据集，最简单的 RNAret 版本（逐碱基读取）产生的碱基配对接触图在中等长度 RNA 上常常比流行的深度学习和热力学工具更接近实验已知结构。模型的输出结合一项后处理步骤（强制实施哪些碱基可以配对的物理规则），得到了更清晰、噪声更少的预测。在第三项测试中，RNAret 学会了区分人类与小鼠基因组中的蛋白编码 RNA 与长非编码 RNA。由于它能处理全长转录本而无需切分，能够良好应对欠全和超长序列，表现优于经典的开放阅读框方法和多数竞争的 RNA 语言模型，尤其在大型人类数据集上表现突出。

快速、高效且具可扩展性

除了准确性，RNAret 的设计还注重速度。得益于其基于保留的架构，模型在单个高端 GPU 上预训练时每秒能处理约十万级别的 RNA 单元，微调用于结构预测或分类时仍保持高效。尽管尺寸远小于许多近期的生物语言模型，它在多种任务上仍达到或接近最先进的性能。作者将此视为 Retentive Network 可作为生物序列分析的实用、可解释引擎的概念验证。通过进一步调优并扩展至 DNA 和蛋白质，RNAret 及相关模型有望成为将原始序列数据转化为关于分子如何相互作用、折叠并执行生命指令的洞见的日常工具。

引用: Shen, Y., Cao, G., Hu, Y. et al. Retentive Network promotes efficient RNA language modeling of long sequences. Commun Biol 9, 575 (2026). https://doi.org/10.1038/s42003-026-09757-x

关键词: RNA 语言模型, Retentive Network, RNA 结构预测, microRNA 相互作用, 长非编码 RNA