Clear Sky Science · zh

不同物种基因组之间的片段式核苷酸序列相似性促进非正典重组

2026-03-30 · 返回目录

生命遗传密码中的隐匿模式

从病毒和细菌到小麦和鲸鱼，所有生物都把遗传指令存储在由四种化学“字母”组成的长串中。本研究提出了一个看似简单的问题：当把两种截然不同生物的遗传密码并排对齐并寻找匹配片段时，会发生什么？答案出人意料地具有普遍性——这有助于解释基因组如何不断重塑自身，从而推动进化和新致病体的出现。

到处存在的短匹配片段

研究人员首先将 SARS-CoV-2 病毒的完整基因序列与多种其他基因组进行了比较，包括人类染色体、其他病毒、细菌、植物和动物。他们并未寻找长且显而易见的同源片段，而是关注“片段”——被不匹配和缺口打断的短串完全相同的碱基。在 90 多次此类跨物种比较中，他们发现了惊人的规律性：约 40–50% 的位置是完全匹配的，几乎总是以这些零散的、片段化的短匹配形式出现。即便是没有近亲缘关系并且生物学功能完全不同的生物，这一现象仍然成立。

看起来相同的随机性

为了判断这些片段式一致性是否反映了深层生物学关系或更基础的因素，研究团队构建了人工对照序列。他们将真实基因组打乱顺序以保持相同的碱基组成，同时也生成了具有类似或固定碱基频率的完全随机 DNA 序列。当他们将这些合成序列相互对齐或与真实基因组比对时，观察到的模式本质上相同：许多短的完全匹配不规则地分布，总体匹配率再次集中在约 40% 左右。他们用不同的比对程序和评分设置重复实验，结果几乎不变。结论是，四字母字母表本身，结合典型的基因组大小和碱基频率，几乎必然产生这种片段化模式。

当机遇变成有用的信号

DNA 中的片段式匹配不仅是一个有趣的现象。早期研究（包括同一研究组的工作）表明，这种模式常常出现在外源遗传物质永久插入宿主基因组的位置——例如某些病毒或活动性移动 DNA 元件整合到动物细胞时。这些事件依赖于“非正典重组”，这是一个总称，指不需要长且完美匹配序列的剪切-粘贴或复制-粘贴事件。本研究强化了这样一种观点：由基础统计特性不断产生的片段式一致性可以为将遗传片段连接起来的细胞机制提供便利的着力点。作者甚至识别出少数局部区域，其一致性远高于随机预期，提示这些区域可能是此类重组尤其易发生的热点。

在进化中塑造基因组

由于这些片段模式既出现在编码区也出现在非编码区，存在于重复元件中，并跨越截然不同的物种，作者认为它们是 DNA 的内在特征，而非特定基因的副产品。在进化过程中，这种持续存在的短匹配背景可能使早期基因组更容易交换、重排或插入新片段，早于高度专门化的酶和严格复制机制的出现。在现代生物中，包括像 SARS-CoV-2 这样的快速变化的 RNA 病毒，相同的统计性支架仍可能帮助促成与其他病毒乃至宿主细胞之间罕见但有重大影响的遗传物质交换，可能导致行为改变的新变体出现。

这对宏观图景意味着什么

对非专业读者而言，关键信息是 DNA 的四字母代码同时携带两类信息。第一层描述基因和调控指令。第二层更为微妙，是统计性质：仅仅因为在长序列上使用四个具有偏倚频率的字母，基因组就不可避免地会共享许多零散的短匹配。本研究表明，进化利用了这第二层，将看似随机的模式转化为遗传重组的实用对接点。换言之，使序列在生命树上呈现片段相似的相同简单规则，可能也帮助生物体不断重写并调整其自身的蓝图。

引用: Weber, S., Ramirez, C.M. & Doerfler, W. Patch type nucleotide sequence identities between genomes from many different species facilitate illegitimate recombination. Sci Rep 16, 10524 (2026). https://doi.org/10.1038/s41598-026-44124-0

关键词: 基因组重组, DNA 序列模式, 遗传进化, SARS-CoV-2 遗传学, 基因组可塑性