Clear Sky Science · zh
通过深度学习和纳米孔直接RNA测序全面绘制RNA修饰动态及相互作用图谱
RNA的隐形标点符号
我们细胞中的RNA分子并不是简单的A、C、G和U序列。它们布满了许多微小的化学标记,像标点符号一样帮助控制基因的开启、蛋白质的生成以及细胞对压力和疾病的反应。然而,直到现在,科学家主要只能逐一研究这些标记,这使得难以在全基因组水平上看清它们如何协同工作。本文介绍了ORCA,一种能够直接读取天然RNA分子的深度学习系统,它构建了这些化学标记及其相互作用的全局、多层次图谱。

读取RNA化学标记的新方法
传统的RNA修饰检测方法通常依赖针对单一标记类型设计的特异性抗体或化学方法,例如常见的N6‑甲基腺苷(m6A)。这使得这些方法在检测该类标记时很强,但视角狭窄:每种方法通常只能看到一种标记,且在特定实验条件下有效。纳米孔直接RNA测序提供了另一条途径:将单个RNA分子穿过微小孔道并测量随碱基化学结构变化而产生的电流差异。修饰过和未修饰的碱基会以微妙不同的方式扭曲信号和碱基识别,但要在多种修饰类型之间从这种嘈杂、高维的数据中提取有意义的信息一直是一个重大挑战。
教神经网络识别任意修饰
ORCA(Omni‑RNA modification Characterization and Annotation)通过两阶段方法应对这一挑战。首先,它将注意力集中在RNA每个位点周围的小窗口内,聚合大量读数的原始电信号和测序错误模式。由于只有部分RNA拷贝携带特定修饰,真实修饰位点在信号分布上更偏态,并且该位置的碱基识别错误更频繁。ORCA使用一种带有“对抗”训练策略的深度循环神经网络,使其学习区分修饰与未修饰位点的一般模式,而不依赖于任何单一已知的化学类型。这使得ORCA能够为每个位点分配一个修饰评分和估计的被修饰分子比例。
学习每种修饰的身份
在第二阶段,ORCA学习标注存在的化学修饰类型。作者向模型输入一组来自公共数据库的高置信度位点,这些位点已通过常规实验鉴定出m6A、5‑甲基胞嘧啶(m5C)、假尿苷(Ψ)、肌苷、2′‑O‑甲基化及若干罕见修饰。ORCA将信号模式、序列上下文和位点周围的短序列“基序”压缩到低维映射,然后微调以预测修饰类型及其所在的确切碱基。关键在于,未标注的位点也被用作“背景”样本,帮助模型避免将未知修饰强行归入错误类别。一旦训练完成,ORCA可以将这些学习到的标签迁移到转录组中成千上万先前未注释的位点。
同时观测多种修饰
作者将ORCA应用于人类和小鼠细胞,结果表明其不仅能匹配或超越现有针对特定修饰(如m6A、m5C和Ψ)工具的准确性,还能检测到未被明确训练过的修饰。例如,即便在训练时屏蔽了m6A数据,ORCA仍能恢复大多数独立测量到的m6A位点,并能将其与未修饰的相似序列基序区分开来。对于2′‑O‑甲基、肌苷编辑位点以及核糖体RNA上的各种化学变化(包括由质谱检测到的许多罕见修饰),它也表现出类似能力。总体而言,ORCA大幅扩展了已知的RNA修饰位点目录,与现有数据库相比,m5C、Ψ、m7G及其他低丰度修饰的注释数量呈多倍增长。

揭示相互作用与剪接调控
由于纳米孔测序读取的是完整RNA分子,ORCA可以检查哪些修饰出现在同一转录本上,哪些修饰倾向于互相排斥。作者对RNA上相近的修饰进行聚类,并使用概率模型推断位点对在单分子层面上是否经常共同修饰或互斥修饰。他们发现m6A与m5C等修饰经常共现,也有许多区域表现为当一个位点被修饰时邻近位点不被修饰。在人类细胞系中,这些模式常落在可变包含或跳跃的外显子附近,并与调控剪接的结合位点以及识别修饰RNA的“阅读器”蛋白的结合位点重叠。在特定基因中,ORCA揭示某些剪接变体富集某一类修饰模式,而其他可选变体则携带不同模式,将局部的化学修饰与信息如何被剪切和拼接联系起来。
这在生物与医学上的意义
通过将直接RNA测序与灵活的深度学习相结合,ORCA将复杂的电信号转化为跨转录组的丰富、多层的化学修饰图谱。对非专业读者来说,关键成果是:科学家现在不仅可以看到单个RNA修饰位点的位置,还能看到同一分子上有多少不同修饰,以及这些组合如何与基因调控(尤其是RNA剪接)相关联。该框架使得在多种细胞类型和条件下研究RNA“表观遗传”成为可能,无需为每种修饰设计新的实验,从而为揭示这些微小化学修饰如何影响发育、脑功能及癌症和神经系统疾病等疾病奠定道路。
引用: Dong, H., Gao, Y., Cai, Z. et al. Comprehensive mapping of RNA modification dynamics and crosstalk via deep learning and nanopore direct RNA-sequencing. Nat Commun 17, 1722 (2026). https://doi.org/10.1038/s41467-026-68419-y
关键词: RNA修饰, 纳米孔测序, 深度学习, 表转录组, 可变剪接