Clear Sky Science · zh
使用 nanoMDBG 从纳米孔读取构建高质量宏基因组组装
从一勺土壤中读出隐匿的生命
每一撮土壤或一滴肠道液都充满了成千上万种微生物,其中大多数无法在实验室培养。要了解它们是谁以及它们的功能,科学家直接从环境中读取它们的 DNA,这一领域被称为宏基因组学。本文介绍了 nanoMDBG,一种新的计算方法,它将便携式 DNA 测序仪的原始信号转化为高质量的基因组草稿,从而比以往更快、更便宜并以更高分辨率绘制复杂微生物世界的图谱。

为何从自然中重建基因组如此困难
宏基因组学的工作流程是将样品中的全部 DNA 切成片段,对这些片段进行测序,然后用软件将它们重新组装成样品中存在的生物体的基因组。早期的短读长技术提供了大量小片段,但得到的拼图通常严重碎片化,尤其是在像土壤这样多样性极高的群落中。长读长测序平台(包括 PacBio HiFi 和 Oxford Nanopore Technologies,简称 ONT)能产生更长的 DNA 片段,这本应使重建更容易。PacBio 的读长非常准确但成本较高,而 ONT 设备更实惠且高度便携,但历史上数据噪声更大。随着 ONT 化学性能改进到大约每百个碱基有一次错误,业界需要能够充分利用这种长度、准确性与成本新平衡的组装器。
从嘈杂信号到干净构建单元
nanoMDBG 的核心思路是对每个 DNA 片段使用一种紧凑的摘要,而不是逐个碱基处理。该方法从每条读序列中选择一组稀疏的短 DNA 模式,称为最小化子(minimizers),并将这些模式的有序列表视为轻量级指纹。来自同一团队的早期软件 metaMDBG 已经利用这些最小化子指纹高效地组装非常准确的 PacBio 读序列。然而,ONT 数据中残留的错误往往会破坏这些指纹,导致缺口和错误连接。NanoMDBG 的解决办法是先在这个简化的“最小化子空间”中对 ONT 读序列进行纠错。对于每条目标读序列,算法先用非常稀疏的指纹快速招募若干最相似的读序列,然后用更密集的指纹重新审查这些候选,以剔除来自无关物种的伪匹配。
新方法如何清理全貌
一旦 nanoMDBG 收集到一组可信的相似指纹,它就将它们叠加以构建一个简单的图,跟踪这些模式在哪些位置一致、冲突或有插入/缺失。算法不查看每个碱基,而仅处理这些已选模式,从而大大降低计算负担。图中支持度最高的路径成为该读序列的共识指纹,有效地抚平了许多原始测序错误。所有纠正后的指纹随后被输入现有的 metaMDBG 组装器,后者将它们缝合成更长的 DNA 片段并最终还原为完整序列,随后进行抛光步骤以精修剩余的小错误。

在真实微生物组中检验 nanoMDBG
研究者在若干试验样本上评估了 nanoMDBG:包含 21 种已知微生物的定义混合样本、一份人类肠道样本、一份标准化的人粪便参考混合样本,以及一份高度复杂的农用土壤样本。他们将其与领先的长读长组装器(尤其是 metaFlye 和早期的 metaMDBG)进行比较,关注能恢复多少接近完整的基因组(称为宏基因组组装基因组,MAGs)以及其中有多少以单一连续片段捕获。在三个真实社区中,nanoMDBG 产生的高质量 MAG 明显多于竞争工具,并且完整的单片段基因组也多得多。例如在 4000 亿碱基的土壤数据集中,它比 metaMDBG 多恢复了 201 个接近完整的基因组,比 metaFlye 多 144 个,同时只使用了极少的内存,并在大约六天内完成,而不是接近一个月。
用更便宜的读长匹配昂贵的准确性
因为在相同深度下对相同样本同时运行了 ONT 和 PacBio 测序,团队能够直接比较两种技术。对于肠道和标准化粪便群落,PacBio HiFi 在顶级质量基因组的总数上仍有优势,尤其在更高测序深度下。然而,用 nanoMDBG 处理的 ONT 数据表现出令人惊讶的接近度,在某些低深度条件下甚至超过了 HiFi。在物种共存数以千计的土壤样本中,高深度时 ONT 和 HiFi 恢复的接近完整基因组数量基本可比,但 HiFi 更常获得完全连续的单片段基因组。详细的错误分析显示,nanoMDBG 在错拼接和覆盖缺失区域方面保持较低水平,并比其他 ONT 组装器保留了更多的全长蛋白编码基因,尤其在具有挑战性的土壤数据集中。
这对探索看不见的生态系统意味着什么
对非专业读者而言,关键结论是:廉价、可现场部署的 DNA 测序仪现在能够从复杂环境中重建接近大型昂贵仪器质量的微生物基因组。NanoMDBG 通过聪明地将数据简化为可重用的模式,在这一紧凑表示中纠正错误,然后从清洁的模式中高效组装基因组来实现这一点。这样就有可能对大量样本进行普查、追踪不同人群或地点之间的微生物菌株,并探索土壤等栖息地中巨大而仍大部分未知的生命多样性,而不需要超级计算机级别的资源。随着算法的持续改进,此类工具将使我们越来越接近常规化、基因组级别的整套微生物群落图谱。
引用: Benoit, G., James, R., Raguideau, S. et al. High-quality metagenome assembly from nanopore reads with nanoMDBG. Nat Commun 17, 3556 (2026). https://doi.org/10.1038/s41467-026-69760-y
关键词: 宏基因组学, 纳米孔测序, 基因组组装, 微生物组, 生物信息学