Clear Sky Science · zh

MIrROR 发布 02:扩展并精炼的 16S-ITS-23S rRNA 操纵子数据集

· 返回目录

为什么微小的微生物对我们很重要

微生物影响我们的健康、环境,甚至气候,但要精确识别土壤样本、河水或人体肠道中存在哪些微观物种却并不容易。本文介绍了一个升级的参考数据集——MIrROR 发布 02,它帮助科学家更精确地读取微生物的长片段 DNA,从而区分亲缘关系接近的物种,更好地理解微生物群落的作用。

Figure 1. 将庞大的微生物基因组原始集合转化为用于区分相似物种的清晰图谱。
Figure 1. 将庞大的微生物基因组原始集合转化为用于区分相似物种的清晰图谱。

超越单一基因标志

多年来,微生物学家一直依赖单一基因的短片段——16S rRNA——来检测和计数样本中的细菌和古菌。该方法速度快、成本低,但常常模糊了图景,把不同物种当作相同。即便使用可以读取完整 16S 基因的长读长测序设备,一些物种仍难以区分,因为该基因在近缘物种之间过于相似。MIrROR 项目的做法是使用更长的一段 DNA,覆盖完整的 rRNA 操纵子,包括 16S、间隔区和另一个名为 23S 的 rRNA 基因,从而提供更多的序列信息以区分相似的微生物。

构建更大且更干净的参考图谱

在此版本中,作者从公共数据库收集了近 170 万个细菌和古菌基因组,并从中搜索合理长度的完整 rRNA 操纵子序列。他们随后对这些原始序列进行了多轮质量检查。缺乏明确物种名称的基因组被剔除,跨物种的完全重复序列被删除,包含过多不确定碱基的序列被过滤。最后,对高度相似的序列进行聚类,并对混合了多物种的群组进行了仔细审查和清理,包括通过序列比对和构建进化树的人工检查以剔除污染序列。

补充被忽视的生命枝系

MIrROR 发布 02 的一项重要进展是纳入了古菌——这是一类分布于温泉到人体肠道等多种环境的广泛微生物群。该数据集现在覆盖了超过一千个古菌物种,其中包括在医学和工业上具有重要价值的微生物。同时,作者利用基于基因组的现代分类法更新了许多微生物的命名和分组。这一重分类影响了数据集中约一半的基因组,并引入了近 1.9 万个额外的细菌物种,包括稀有的环境微生物、临床相关的病原体,以及在生物技术和食品生产中重要的物种。

让长读长调查在真实与模拟群落中都能发挥作用

为了证明扩展后的数据集不仅规模更大而且更有用,团队在实验室构建的混合样品和计算模拟的微生物混合物上进行了测试。他们将 MIrROR 发布 02 与早期 MIrROR 数据以及其他常用参考集合进行了比较。在受控测试中,新数据集在准确识别物种方面表现更佳,包括一些旧数据集完全漏检的物种,例如在肠道群落标准样品中的某种 Prevotella。当在模拟肠道群落中加入古菌物种时,新版 MIrROR 能在属和种水平上检测并分类这些古菌,而仅含 16S 的常用参考库常常给出模糊标签如“未解释的细菌”,并难以将读段归到正确的物种。

Figure 2. 筛选长的 DNA 操纵子读段,使其可以明确划分为细菌和古菌物种群体。
Figure 2. 筛选长的 DNA 操纵子读段,使其可以明确划分为细菌和古菌物种群体。

帮助科学家选择合适的工具

由于长读长测序依赖于特定的 DNA 起始位点(引物),作者还在计算模拟中评估了不同引物对,以确定哪些能够在整个操纵子上最好地覆盖细菌和古菌。他们推荐了两套在覆盖范围与长读长平台兼容性之间取得平衡的引物组合。与此同时,他们指出了一些已知的生物学特性,例如某些微生物将 rRNA 基因分开或存在多个略有差异的拷贝,这可能会偏倚计数结果,在解释群落数据时需加以考虑。

这对日常问题意味着什么

简而言之,MIrROR 发布 02 是一本更大、更有条理的微生物“通讯录”,为现代长读长 DNA 测序而建。它使科学家能够更可靠地区分相似物种,将古菌纳入调查,并更自信地在不同研究间比较结果。虽然它不能消除读取微生物群落的所有挑战,但为研究人员提供了更锐利的镜头,以探索微生物如何影响人类健康、生态系统和工业过程。

引用: Lee, J., Hong, J., Seol, D. et al. MIrROR release 02: Expanded and refined 16S-ITS-23S rRNA operon dataset. Sci Data 13, 714 (2026). https://doi.org/10.1038/s41597-026-06729-y

关键词: 微生物组, rRNA 操纵子, 长读长测序, 微生物分类学, 古菌