Clear Sky Science · zh
一种基于基因组的方法,用于用下一代测序样品准确识别近缘物种
这对农场及更广泛场景为何重要
现代DNA测序可以以惊人的细节读取动物的遗传密码,但即便是强大的计算机也可能在一个看似基础的问题上吃力:这些序列来自绵羊还是山羊?对农民、育种者、保护工作者和科学家来说,大规模DNA数据集中物种的混淆会让关于健康、生产力和进化的研究偏离方向。本文介绍了一种既简单又巧妙的方法来区分近缘物种——以绵羊和山羊为例——其思路不是查看所有微小的DNA差异,而是关注少数几段像物种专属条形码一样的序列区间。

相似DNA带来的问题
绵羊和山羊共享大部分遗传蓝图,因此来自一种动物的短DNA片段常常也能几乎同样好地匹配到另一种的参考基因组。作者分析了40只已知身份动物的全基因组测序数据——20只绵羊和20只山羊——每个样本都有数亿条测序读段。使用将读段匹配到参考基因组的标准工具,他们发现两种物种的DNA都能非常好地比对到绵羊和山羊的参考上。比对率、覆盖深度和误差指标都非常相似且高度重叠,仅凭这些常规统计数据几乎无法有把握地判断样本来自哪个物种。
为什么常规的DNA分类器不够用
团队还测试了Kraken2,这是一款流行的软件,试图将每条DNA读段分配到生命树的某个位置。即便使用了全面的数据库,来自绵羊和山羊的读段大多被归入相同的宽泛动物类群,彼此间仅有微小的数值差异。对这些归类结果的可视化显示,两种动物的大多数读段都集中到相同的属中,反映出它们彼此以及与其他哺乳动物共享的大量DNA。在实际操作中,这种模糊的边界意味着传统的分类工具可能会误导那些以为被标记为“绵羊”的数据集确实来自绵羊,或以为容易发现标记错误样本的研究者。
把缺失覆盖当作物种条形码
作者没有问读段与参考匹配得有多好,而是反过来问:它们在哪些位置不匹配?他们将训练集的30个样本(15只绵羊、15只山羊)比对到两个参考基因组,并扫描表现出明显开/关模式的区间。例如,当在山羊基因组上比对时,如果山羊样本在某一区域持续显示正常覆盖而绵羊样本在同一位置几乎没有覆盖,该区域就被视为“山羊特异”。采用严格阈值,这一搜索在山羊中产生了超过15万个候选区,在绵羊中则超过170万。经过聚焦于更长且分离清晰片段的人工筛查,团队最终提取出每个物种仅十个高可信度区间——短的DNA片段,其中一种物种稳定“点亮”而另一种保持“暗淡”。

针对未知样本的简便测试
有了这20个区间,作者为任何未标注的DNA数据集设计了一套直接的检测流程。首先,将读段分别比对到绵羊与山羊参考基因组。然后,测量在绵羊基因组上的十个绵羊特异区间以及在山羊基因组上的十个山羊特异区间内的覆盖量——即读段的堆积情况。如果绵羊区间显示强覆盖而山羊区间几乎为空,则样本为绵羊;若模式相反,则为山羊。将此基于模式的检测应用于14个独立的验证样本(包括来自不同测序仪和甚至化学修饰过的DNA的公开数据),该方法在研究集合中正确识别了每一个样本,达到了100%的准确率。
新工具与未来应用
除了为绵羊和山羊研究解决一个实际问题外,这项工作还提供了可推广到其他近缘物种对或物种群体的一般蓝图。经人工挑选的这些区间可作为未来工具的构建模块,从只扩增这些物种特异片段的快速实验室检测,到自动化软件用于筛查旧测序数据中的标记错误。尽管该方法确实需要将数据比对到多个参考基因组,增加了计算时间和存储开销,但它避开了许多传统方法的陷阱,并对品种和测序平台差异具有鲁棒性。通俗地说,作者证明了如何用少数精心挑选的DNA标记,给出一个清晰且可靠的答案,解决那些大型复杂算法经常出错的一个问题:这是什么动物?
引用: dain Marzouka, N.a., Al-Aamri, A., Alshamsi, F. et al. A genomic approach for accurate identification of closely related species with next-generation sequencing samples. Sci Rep 16, 11329 (2026). https://doi.org/10.1038/s41598-026-41497-0
关键词: 物种鉴定, 全基因组测序, 绵羊与山羊, 比较基因组学, 动物遗传学