Clear Sky Science · zh

DupyliCate:挖掘、分类与表征基因重复

· 返回目录

为何额外的基因拷贝重要

每个生物体携带数千个基因,但其中许多并非唯一。随着时间推移,DNA 片段可能被复制,留下可供进化改造的备用拷贝。这些额外的基因拷贝帮助植物应对胁迫、塑造像花色或风味等新性状,甚至影响微生物对环境的反应。该研究介绍了 DupyliCate——一个旨在追踪并在多个物种间整理这些基因拷贝的计算工具,帮助研究者揭示基因组如何变化以及新生物学特征如何出现。

在浩瀚 DNA 中寻找基因拷贝

现代基因组既庞大又复杂。额外的基因拷贝可能并排出现、散布在染色体各处,或是古老全基因组加倍的残留。早期工具通常侧重于相关基因对或针对非常特定的数据格式,这限制了科学家的发现能力。DupyliCate 通过扫描整套基因组并将相关基因聚类为阵列(而不仅仅是成对)来解决这些问题。它能处理多种基因组注释文件格式,并可在植物、微生物和动物间工作。通过将基因分组为串联、相邻和分散重复,它能更清晰地呈现复制如何塑造每个基因组的全貌。

Figure 1. 一个计算工具如何扫描大量基因组,将多余的基因拷贝组织为重复模式。
Figure 1. 一个计算工具如何扫描大量基因组,将多余的基因拷贝组织为重复模式。

让每个物种设定自己的判断标准

识别真实的基因拷贝的一个挑战是决定何处将孤立基因与重复基因区分开来。DupyliCate 使用基于保守核心基因(称为 BUSCO 基因)的质量控制步骤来为每个物种设定特异性的阈值。它衡量每个基因与其最近亲的匹配强度,并利用这些数值将基因划分为“单拷贝基因”和重复基因,以反映每个物种自身的复制历史。该工具还生成“重复景观”图,显示基因组中基因拷贝的分布频率,揭示例如低重复的细菌、中度重复的模式植物或最近经历全基因组倍增的物种等模式。

用真实生物学案例检验准确性

为证明 DupyliCate 在实践中的有效性,作者将其应用于植物学中研究充分的实例。该工具正确检测到关键基因的已知串联重复,例如某个拟南芥品系中的 SEC10 基因,以及控制栀子花中 crocin 色素产生的基因簇。它还识别了与甜菜线虫抗性相关的基因扩增以及药用植物中 withanolide 产生相关的扩张,将相关基因归入有生物学意义的簇。除了植物之外,它在细菌和酵母中发现的重复基因相对较少,但在线虫 Caenorhabditis elegans 中发现更多重复,与先前对其基因组的了解一致。

追溯植物色素的演化历史

DupyliCate 不仅用于统计基因拷贝;它还有助于探索基因家族如何演化。作者在两个关于称为黄酮醇(flavonol)植物色素的案例研究中使用了该工具,黄酮醇能保护植物免受紫外线等胁迫。在一个案例中,他们追踪了芥菜科及其近缘植物中黄酮醇合酶基因的历史,发现一个关键的功能性拷贝被广泛共享,而其它拷贝在不同谱系中扩增、缩减或成为伪基因。在第二个涵盖 153 个植物基因组的大规模调查中,他们跟踪了两个调控黄酮醇产生的转录因子 MYB12 和 MYB111。结果显示这些调控因子在藻类和大多数早期陆生植物中缺失,但在许多被子植物中多样化,揭示了复杂化学调控系统如何出现的线索。

Figure 2. 该工具如何一步一步提取重复的基因片段并将其归类为不同的重复类型。
Figure 2. 该工具如何一步一步提取重复的基因片段并将其归类为不同的重复类型。

从原始序列到功能洞见

DupyliCate 在单一流程中整合了多种证据。它清理并标准化基因组文件、在物种内外对蛋白序列进行比对、将重复基因聚成有意义的群组,并且可选地加入进化压力度量以及基因表达模式。通过比较重复基因的表达强度及其在家族树中的位置,该工具有助于区分可能的新功能、共享功能或功能丧失。其设计强调参数灵活性、明确的置信度评分,并支持单物种与多物种研究。

这对未来基因组研究意味着什么

通俗地说,这项工作展示了如何将原始的 DNA 列表转化为关于生物如何获得新能力的故事。通过自动在多个基因组中发现并分类额外的基因拷贝,DupyliCate 为研究者提供了一种将特定性状(如抗逆性或色素产生)与过去 DNA 复制事件联系起来的途径。由于它能处理多种数据类型并能从小型微生物基因组扩展到大型植物物种集合,预计它将成为研究进化、农业与生物多样性工具箱中的有用组成部分。

引用: Natarajan, S., Pucker, B. DupyliCate: mining, classifying, and characterizing gene duplications. Sci Rep 16, 16557 (2026). https://doi.org/10.1038/s41598-026-55350-x

关键词: 基因重复, 比较基因组学, 植物进化, 生物信息学工具, 基因组分析