Clear Sky Science · zh
用于纳米孔直接RNA测序的双重上下文感知碱基识别器
为什么解码RNA字母很重要
你体内的每个细胞都在不断读取并重写以RNA形式存在的基因信息,RNA是基因的工作拷贝。新的“纳米孔”测序仪可以直接读取单个RNA分子,承诺揭示基因如何被开启、RNA如何剪接,以及RNA上的化学修饰如何影响健康与疾病。但存在一个问题:这些设备实际测量的是微小的电流,然后必须被翻译——“碱基识别”——成我们熟悉的A、C、G和U字母。如果这种翻译出错,我们从数据中推断的生物学故事可能会严重失真。本文介绍了Coral,一种使这种翻译更为准确的新型人工智能系统。

读取电信号而不是字母
纳米孔直接RNA测序通过将单股RNA穿过一个分子孔——纳米孔——并在每个核苷酸通过时测量电流如何变化来工作。这些波动的电流轨迹包含了关于RNA序列及其化学修饰的信息。传统RNA测序则将RNA转换为DNA并进行放大,这些步骤可能引入偏差并抹去许多天然的化学标记。直接RNA测序避免了这些问题,但代价是将电流轨迹转为序列时相对较高的错误率,尤其是在重复碱基和复杂RNA构象等具有挑战性的特征上。要让科学家信赖这些长读长的精细细节,就必须改进碱基识别。
一种利用两类上下文的更智能译码器
大多数现有的纳米孔碱基识别器将电信号视为主要信息源,并几乎独立地对每个位置进行解码,这限制了它们利用RNA序列自身结构的能力。Coral采用了不同的方法。它使用基于Transformer的编码器—解码器架构,思路类似现代语言模型。首先,由卷积和自注意力层构建的编码器网络将原始电流信号消化为对信号随时间变化的紧致描述。然后解码器以一步步预测每个新的RNA碱基,同时向后查看已经写入的碱基并横向参考编码后的信号。两种注意力机制——在增长的RNA序列内部以及序列与信号之间——使Coral在决定下一个字母时能够权衡电信号和序列上下文。
更清晰的序列与更少的丢失分子
作者将Coral与若干领先的碱基识别器(包括牛津纳米孔的商业工具)在来自人类与其他生物的RNA以及多种纳米孔化学体系上进行了比较。在六个物种和较旧的RNA测序试剂盒上,Coral实现的典型中位读取准确率约为97%,明显高于竞争方法。在最新的RNA试剂盒上,其准确率超过了99%。Coral产生了更少的不匹配、插入和缺失,生成了更长、更好比对的读取,同时无法映射的序列更少。它在处理短的重复碱基序列方面表现尤其出色——这在真实数据中非常常见,也是其他工具的常见错误来源。通过更可靠地捕捉到更长的正确序列,Coral在预测短序列模式(k-mer)方面也表现优异,即使早期解码步骤含有小错误时仍保持稳健。

看到转录组更多隐藏的细节
改进的碱基识别只有在能带来更好的生物学结论时才有价值。为此,团队检查了Coral输出如何影响人类细胞系的下游分析。使用专门工具重建完整RNA异构体——即每个基因的不同剪接版本——他们发现Coral的读取暴露了更多已知的转录本结构以及许多其他低丰度异构体,而这些是其他碱基识别器未检测到的。许多仅在Coral中出现的转录本得到了独立短读长数据的支持,表明它们是真实存在的而非伪影。在一项掺入已知浓度参考转录本的实验中,Coral还检测到了更多人工参考转录本并更准确地估计了其丰度。除了转录本发现,Coral还改进了在乳腺癌细胞系中基因融合事件的检测,并增加了显示等位基因特异性表达(即某一亲本拷贝比另一拷贝更活跃)的基因数量和可信度。
更清晰的遗传变异与家族谱系
由于长RNA读长可以跨越远距离的遗传变异,它们是确定哪些变异在同一染色体拷贝上共存(称为单倍型分期)的强有力工具。使用一个具有金标准变异图谱的广泛研究人类样本,作者展示了Coral更高质量的读取导致了更准确的单核苷酸变异检测和显著更少的分期错误:与其他方法相比,分期区块内的切换错误和总体不匹配率最多降低了约四分之三,同时可分期的变异数量也大幅增加。对基础读取准确率进行变化的模拟研究证实,一旦碱基识别达到约95%准确率,转录本发现、等位基因特异性表达和分期的性能都会显著改善并随后趋于平台期。Coral处于这一高收益区,表明它捕获了噪声纳米孔信号中大部分与生物学相关的信息。
这对未来RNA研究意味着什么
对非专业人士而言,关键结论是Coral就像在纳米孔测序器的电语言与RNA的遗传语言之间充当了更可靠的翻译。通过更好地利用信号和增长序列中的双重上下文,它产生了更清洁的读取,从而发现更多的转录本变体、识别稀有融合基因,并更有把握地追踪哪些变异来自哪一位亲本。该软件为开源,研究人员可以将其适配到新物种、新化学体系,甚至用于研究RNA本身的化学标记。随着纳米孔技术持续改进,像Coral这样的工具将有助于把原始电流轨迹转换为可信且详尽的细胞内RNA世界图谱。
引用: Xie, S., Ding, L., Yu, Y. et al. A dual context-aware basecaller for nanopore direct RNA sequencing. Nat Commun 17, 1851 (2026). https://doi.org/10.1038/s41467-026-68566-2
关键词: 纳米孔RNA测序, 碱基识别, Transformer模型, 转录本异构体, 单倍型分期