Clear Sky Science · zh
基因组语言模型缓解纳米孔直接RNA测序中的嵌合体伪影
为什么清理RNA读段很重要
我们的细胞不断读取用RNA写下的遗传指令,新测序技术现已让科学家以前所未有的细节观察这一过程。纳米孔直接RNA测序是最强大的工具之一,它可以一次性读取完整RNA分子——但同时也会引入一些故障,使得基因看上去像被断裂并以现实中并不存在的方式重新拼接。本研究介绍了DeepChopper,这是一款将基因组视为“语言”的软件工具,用来清理这些错误,使研究者能够信赖RNA数据中所见的内容。
当测序仪产生虚假的基因混合
现代纳米孔设备将单条RNA分子拉过微小孔道并直接读取其序列。这相比旧方法有很大优势,例如保留化学修饰并在单次读段中捕获全长转录本。但这个过程也依赖于在文库构建时粘接到RNA分子的短助记片段(适配子)。有时,两个或更多RNA分子会被这些适配子意外连接在一起,产生看似嵌合体的混合分子,仿佛不同基因被融合。标准分析工具可能会把这些技术性残留误判为真实的生物事件,例如与癌症相关的基因融合或异常剪接,从而导致误导性的结论。

阅读基因组而非句子的语言模型
DeepChopper将基因序列稍微类似于文本来看待,并把大型语言模型的思想应用于其上。它不是处理单词,而是一位一位地读取RNA序列,同时利用每个位点的质量分数来表示该碱基读数的可靠性。基于一种称为HyenaDNA的紧凑架构,它可一次扫描多达32,000个碱基——足够覆盖几乎任何人类RNA分子。对于每一个位置,DeepChopper都估计该碱基是属于真实的RNA序列还是适配子的一部分。随后一个精化步骤将这些预测平滑,使适配子被标注为连续的区段,而不是离散的零散点。
切除错误连接而不丢弃数据
一旦DeepChopper在读段中检测到适配子,它采取了一个关键步骤:不是丢弃整条读段,而是在这些适配子位置上“切割”并保留真实的片段。这样,两个RNA的人工融合就可以被拆分回各自的原始部分。在对来自多个人类癌细胞系和干细胞的数百万条纳米孔读段的测试中,DeepChopper远胜于现有的适配子剪切工具——这些工具从未为直接RNA情境设计。在合成基准测试中,它对适配子的识别精确率和召回率均超过99%,并能在使用图形处理器的情况下高效扩展到超过2000万条读段的数据集。
把真实的基因融合与测序幻象区分开
作者接着探讨DeepChopper是否能在真实癌症数据中区分真实的生物事件与伪影。通过将直接RNA读段与由独立方法产生的配对数据(例如在Oxford Nanopore和PacBio平台上进行的直接cDNA测序)进行比较,他们可以标注哪些表观嵌合体得到了其他技术的支持,哪些没有。DeepChopper将不被支持的嵌合比对减少了多达62–91%,同时极大地富集了那些被其他方法证实的比率。它还将可疑基因融合的数量削减了近90%,尤其是那些涉及核糖体基因的高频伪影。与此同时,由短读长RNA测序支持的真实融合事件得以保留。

更好的化学试剂有帮助——但伪影依然存在
Oxford Nanopore最近发布了一个更新的测序试剂盒(RNA004),部分设计目的就是减少技术性伪影。DeepChopper首次在该新化学体系的数据上“开箱即用”地应用,仍然发现小而重要的一部分读段包含内部适配子和嵌合连接。即使在无需额外训练的情况下,该模型也将伪影嵌合减少了约五分之一;在对新数据进行微调后,性能略有提升,同时保留了真实信号。跨越所有化学体系和细胞类型,纠正这些伪影使后续工具能够检测到更多全长和可变转录本,从而更清晰地呈现细胞的RNA图谱。
这对未来RNA研究意味着什么
对非专业读者而言,关键观点是:并非测序仪报告的每一处令人惊讶的RNA连接都是生物学真实现象——有些是技术本身引入的线路错误。DeepChopper就像一位经过高度训练的校对者,专门为纳米孔RNA数据识别将不相关分子连接在一起的指示性适配子序列,并以单碱基精度将其切除。结果是更干净、更可靠的RNA分子图谱,显示哪些RNA存在于细胞中以及它们如何被组装。随着各实验室越来越多地依赖长读长RNA测序来研究癌症、脑疾病和其他复杂疾病,像DeepChopper这样的工具将对把嘈杂的原始读段转化为可靠的生物学洞见至关重要。
引用: Li, Y., Wang, TY., Guo, Q. et al. Genomic language model mitigates chimera artifacts in nanopore direct RNA sequencing. Nat Commun 17, 1864 (2026). https://doi.org/10.1038/s41467-026-68571-5
关键词: 纳米孔RNA测序, 嵌合读段, 基因融合伪影, 基因组语言模型, DeepChopper