Clear Sky Science · zh

在牛长读长测序队列中,分子QTL富集于结构变异

· 返回目录

为何牛的DNA能教会我们关于复杂表型的知识

农民、兽医和遗传学家都希望弄清为何某些动物生长更快、抗病力更强或产奶更多。很多答案藏在DNA中,但我们通常的工具主要关注基因组中单个“字母”的微小变化。本研究表明,更大的DNA改变——结构变异——在悄然影响牛的基因功能,而新的长读长测序技术则终于让我们看到它们的全面影响。

用更清晰的镜头观察基因组

大多数遗传学研究依赖短片段的DNA序列,这类方法廉价且准确,但在重复或复杂的基因组区域表现欠佳。作者在120头与乳业相关的公牛上使用了一种更新的技术:长读长测序。这些长读可以覆盖更大的DNA片段,使得识别插入、缺失和重排等大型结构变异更容易。研究团队将这些长读与同一批动物已有的短读数据进行了比较,发现长读总体上发现了更多变异,并显著提高了对诸如X和Y染色体等难测区域的覆盖率。

Figure 1
Figure 1.

揭示数千个隐藏的DNA重排

借助长读数据,研究者在这些公牛中记录了约2400万个小型DNA变异以及超过79,000个结构变异。许多较大的变异与在基因组中自行复制并插入的新重复元件有关。约十分之一的结构变异仅出现在一两头动物中,显示出丰富的稀有变异库。与此前基于高质量组装构建的牛“泛基因组”相比,这套新数据增加了数万条额外的结构变异,尤其是插入与复杂复制,这些在旧方法中难以检测到。这表明长读研究仍在揭示家畜基因多样性中此前不可见的层面。

将DNA变异与基因活性连接起来

为了了解这些DNA差异如何实际影响生物学过程,团队转向了一个与雄性生育力相关的组织:睾丸。117头公牛中有深度RNA测序数据,可以揭示哪些基因被激活以及其RNA如何剪接。通过统计学方法将基因附近的遗传变异与其活性关联起来,研究者鉴定出超过27,000个“分子QTL”——影响基因表达量或RNA剪接的基因组位点。结构变异成为关键角色:在顶级表达信号中它们出现的频率超过预期两倍以上,在顶级剪接信号中则超过五倍。在许多情况下,最具影响力的变异是一段位于启动子、增强子、外显子或剪接位点的大型插入、缺失或复制,而不是单个字母的替换。

Figure 2
Figure 2.

当基因分型错误掩盖重要信号时

然而,这项研究也暴露了现有工具的局限性。即便有高质量的长读,准确为每头动物标注结构变异的基因型仍充满挑战,尤其是对于大型插入和长片段复制。小的错误——有时仅涉及一两头公牛——可能导致结构变异在统计显著性上略逊于与之完全连锁的邻近小变异。当作者手动核查一些最强的信号时,反复发现了结构变异位于基因或关键调控区并且最有可能驱动效应的情况,但因为分型错误或缺失数据,相关联的小变异反而排在了首位。

这对牛育种及其它领域意味着什么

对非专业读者来说,结论是“大型”DNA变化非常重要。这项在牛群体中的长读调查显示,结构变异在控制基因开启和剪接的基因组位点中富集,尤其是在生殖组织中。然而研究也警示,目前的分析方法仍会遗漏或错误标注许多此类变异,特别是在测序深度有限时。随着长读测序变得更便宜、更准确,以及更好的软件被开发出来,育种者和研究者将能够把像生育力、抗病性和产奶量这样的经济性状追溯到特定的结构变异。同样的原理也适用于人类健康和植物育种:要全面理解复杂性状,我们必须超越单字母的变化,拥抱那些重塑基因组的大型重排。

引用: Mapel, X.M., Leonard, A.S. & Pausch, H. Molecular QTL are enriched for structural variants in a cattle long-read cohort. Commun Biol 9, 290 (2026). https://doi.org/10.1038/s42003-026-09596-w

关键词: 结构变异, 长读长测序, 牛基因组学, 基因表达, 分子QTL