Clear Sky Science · zh

枪法测序深度基准测试揭示浅层宏基因组学与菌株级分析的潜力与局限

· 返回目录

为何观察微小生命需要合适的数据量

定居于我们体内与体表的微生物影响着健康,但它们太微小且种类繁多,显微镜下难以逐一计数。如今,研究者常通过读取它们的 DNA 来判断哪些微生物存在以及它们具有什么功能。但更多的 DNA 数据意味着更高的成本。本研究提出了一个简单却重要的问题:究竟需要多少测序数据才能对微生物群落得出有用结论?在哪一点开始节省投入会导致误导性结果?

Figure 1. 在不浪费资源的前提下,获得足够微生物组 DNA 数据以清晰呈现群落的程度
Figure 1. 在不浪费资源的前提下,获得足够微生物组 DNA 数据以清晰呈现群落的程度

检验小数据与大数据的效力

研究者用已知的肠道细菌在实验室培养,构建了人工微生物群落。因为他们确切知道哪些菌株以何种比例存在,这些“模拟”样本就像电视的测试图案,能揭示测序得到的图像在哪里清晰或模糊。他们对每个群落进行了从非常少到非常多的数据深度测序,然后分析在不同深度下能检测到哪些细菌、是否能区分近缘菌株,以及能恢复到每个菌株的多少蛋白质编码潜能。

少量测序能胜任的情况

对于“这里有哪些物种”和“每种有多常见”等基础问题,团队发现当有良好的参考基因组可用时,所需的数据出乎意料地少。即便在低测序深度下,每个菌株仍会留下可检测的痕迹,相对丰度模式在增加数据量时也保持稳定。每个样本约半吉字节的 DNA 数据就足以可靠地描述群落组成。这使得低深度或“浅层”测序对需要在大量样本间比较整体微生物组模式的大型研究具有吸引力,因为这样既能覆盖更多个体又能控制经费。

浅层方法的短板

一旦焦点从物种转向单个菌株及其细节功能,问题便浮现。重建完整基因组(即宏基因组组装)需要更深的测序,而且仍常常出错。计算程序会将 DNA 片段分到草图基因组中,这些草图按常用质量检查表看似高质量,但很多其实是由多种不同菌株拼凑而成的补丁式产物。即便在非常高的测序深度下,仍有相当比例的组装基因组是嵌合体,且一些真实存在的菌株被完全漏掉。浅层测序还难以捕获完整的蛋白质集合:几吉字节的数据足以勾勒出大体代谢通路,但要覆盖大多数单个蛋白质,尤其是在更复杂群落中,需要远更深的测序深度。

Figure 2. 当测序从非常浅到非常深时,微生物组见解发生的变化
Figure 2. 当测序从非常浅到非常深时,微生物组见解发生的变化

实验室选择与杂散 DNA 的影响

研究还表明,在 DNA 进入测序仪之前的实验步骤会扭曲结果,尤其是在测序深度低时更为明显。使用更多的起始 DNA 和更少的扩增循环能使分类学与功能学谱更稳健。相反,输入 DNA 很少且扩增循环多的方案会扭曲某些菌株的相对丰度。加入宿主 DNA(模拟含有人或动物物质丰富的样本)会进一步降低微生物基因组及其蛋白质的表观覆盖度。这些问题在更高测序深度时变得不那么严重,但并不会完全消失。

对未来微生物组研究的实用建议

总体而言,该工作对浅层 DNA 测序能做什么和不能做什么提供了现实检验。对于主要需要对人类肠道等研究良好的环境进行宏观普查的研究,适度的测序深度可以奏效,前提是有良好的参考基因组并且实验方案谨慎选择。然而,对于有关群落功能的细节问题或菌株间细微差异的研究,浅层测序并不足够。即便非常深的测序也无法完全解决组装基因组混杂的问题,因此基于这些草图的结论应持谨慎态度。简言之,应根据科学问题匹配 DNA 数据量与分析方法,并清楚了解哪些方面仍然模糊不清。

引用: Treichel, N.S., Pauvert, C., Séneca, J. et al. Benchmarking of shotgun sequencing depth reveals the potential and limitations of shallow metagenomics and strain-level analysis. Nat Microbiol 11, 1233–1244 (2026). https://doi.org/10.1038/s41564-026-02334-2

关键词: 微生物组测序, 浅层宏基因组学, 测序深度, 宏基因组组装基因组, 菌株级分析