Clear Sky Science · zh
通过观测位点预测牛群中未观测位点两等位基因状态相同概率
为何牛的家谱已不够用
现代的牛育种依赖于挑选合适的父母以培育健康、高产的动物。一个多世纪以来,育种者使用家谱(谱系)来避免会损害生育力、生长和抗病力的近交。但家谱常常不完整或存在错误,而且它们只能估计动物可能的相似度。本研究提出一个简单却重要的问题:如果我们直接观察 DNA 而不是纸面记录,能否更好地识别在未测量的基因组区域中真正基因相似的动物?
在基因组中寻找隐藏的“遗传双胞胎”
研究者关注一个称为“状态相同”(identity by state, IBS)的概念。如果同一位点上的两个碱基看起来完全相同,则称为 IBS,无论它们是否来自于最近的共同祖先。实际上,育种者仅对动物在一部分称为 SNP 的标记位点上进行基因分型,许多位点因此未被观测到。研究团队想知道,基于观测到的 SNP,不同方法在多大程度上能预测动物在这些未观测位点上共享相同等位基因的概率——本质上是我们在基因组中看见隐藏遗传相似性的能力有多强。

模拟的群体与真实牛只数据
为此,作者使用了两类数据。首先,他们模拟了跨越多代的牛群体,控制诸如有效种群大小(实际上贡献基因的动物数量)以及父母选择是随机的还是基于某性状的估计育种值等因素。他们生成了大量 SNP,然后将其划分为“观测”标记和“未观测”标记。未观测集合提供参考值:基因组范围内真实的等位基因匹配概率。其次,他们用日本黑毛和牛的高密度基因分型真实数据重复了分析,使用一部分 SNP 作为观测标记,另一部分作为未观测的参考点。
将谱系分数与基于 DNA 的度量比较
研究评估了多种基于 DNA 的个体内近交和个体间遗传相关性的度量方法。有些方法独立地考察每个 SNP,而另一些则将相邻 SNP 归为更长的相同 DNA 片段(称为纯合运行,runs of homozygosity)或对来自共同祖先的片段进行建模。对于每种度量,团队计算其预测与未观测位点参考 IBS 值的匹配强度,用相关系数衡量准确性。他们还将这些基于 DNA 的度量与传统谱系的近交和关系系数进行了比较,后者在育种项目中被广泛使用。

DNA 标记显著优于谱系
在模拟和真实牛群体中,基于基因组的度量在预测隐藏的 IBS 方面始终优于谱系基于的度量。尤其是那些把每个 SNP 假定为在祖先群体中两等位基因频率均为 0.5 的方法——论文中称为 FGRMV2 和 fGRMV2——表现出很高的准确性。基于长纯合片段的度量同样表现良好,特别是那些对来自共同祖先的片段建模(FHBD)或统计全基因组相对较短纯合运行(FROH4all 及其个体间对应的 fSEG4)。这些表现最佳的方法在多代选择压力下仍然保持较高准确性,并且比谱系估计更可靠地追踪近交上升。
对育种者和粮食安全的意义
对非专业读者的要点是,直接查看 DNA 能比仅依赖家谱更清楚地显示牛群的真实遗传相似性。通过使用特定的基因组指标,育种者可以更好地监控隐藏的近交、保护遗传多样性,并设计在遗传进步与长期群体健康之间取得平衡的配对策略。这不仅有助于避免当下的近交衰退,也有助于保持足够的遗传变异,以便牛群应对未来的挑战,例如新疾病或气候变化。
引用: Nagai, R., Honda, T., Satoh, M. et al. Probabilities of two alleles being identity by state at unobserved loci predicted by observed loci in cattle populations. Sci Rep 16, 7454 (2026). https://doi.org/10.1038/s41598-026-37530-x
关键词: 牛遗传学, 近交, 基因组选择, 遗传多样性, SNP 标记