Clear Sky Science · zh
对家庭进行长读长测序揭示重复DNA中生殖系与合子后突变率上升
为什么微小的DNA变化对家庭很重要
每个孩子都携带若干不出现在任何一位父母身上的遗传变化。大多数无害,但部分变化会影响健康与发育。多年来,科学家难以准确测量这些新发突变,因为许多突变隐藏在我们DNA中最重复、最难读取的片段内。本研究在真实家庭中使用新型长读长测序工具,揭示这些隐藏的变化,并探究它们在哪里以及在人生的何时出现。
以更宽广的视角读取DNA
传统的DNA测序将基因组切成短片段,再像拼图一样重组。该方法对大部分基因组有效,但在许多片段几乎一模一样的长重复区域失效。作者结合了三种技术——两种长读长平台和常规短读长测序——对来自42个家庭的73名儿童及其父母进行了分析,这些家庭主要通过自闭症研究招募,且此前未发现明确的遗传病因。通过将每个孩子的基因组与双亲进行比较并跨平台核对,他们建立了一个高置信度的、属于每个孩子的新发突变目录。
在他们能够可靠分析的基因组部分——约占我们29亿碱基中92%的区域——团队平均每个孩子发现95处新发突变。大多数为单碱基变异;较少的是短插入或缺失。尽管这些家庭是通过自闭症研究招募的,受影响儿童与未受影响的兄弟姐妹携带的新发突变数量和类型相似。这表明,至少在这些家庭中,自闭症风险不太可能源于总体突变负担的增加,而更可能取决于特定罕见突变落入基因组何处。

突变何时出现:在受孕前还是受孕后
新发突变大致可以在两个时间窗口出现。一类发生在父母的卵子或精子中,存在于孩子的每一个细胞,这类称为生殖系突变。另一类在受精后不久的最初几次细胞分裂中出现,因此仅存在于体内一部分细胞;这类称为合子后或早期胚胎突变。长读长序列足够长,可以同时跨越许多遗传标记,使研究者能够将几乎每个新发突变归属于母源或父源染色体,并判断它是在所有拷贝中出现还是仅在部分拷贝中出现——这是判定其发生时点的关键线索。
该团队估计的生殖系替换突变率约为每代每碱基1.3 × 10⁻⁸,与以往工作一致,而合子后突变率约为其六分之一。约15%的单碱基变化发生在受孕后——几乎是许多仅依赖短读长数据的早期估计的两倍。如先前研究所示,大多数生殖系突变来自父方,其数量随父母年龄增加而上升,对父亲的升幅更陡。合子后突变仅显示出轻微的父方偏向和较弱的年龄效应,这暗示早期胚胎中存在不同的生物学机制。
重复性DNA是变异热点
该研究的一个核心目标是探明重复性DNA——例如可移动元件和大型重复片段——是否比基因组其他部分突变更快。长读长数据终于可以直接研究这些区域,而不是将其丢弃。作者发现某些重复类型,尤其是像Alu的SINE元件以及被称为片段重复的大型复制区,显示出明显升高的突变率。在这些重复中,拷贝越相似且越长,突变率越高,尤其是那些发生在受精后变化的突变。
在高度相似的片段重复和染色体中称为着丝粒的重复核心区域中,合子后突变的发生率是普通DNA的两倍多。这些热点处的碱基变化模式不同于典型的生殖系突变,传统与年龄相关的CpG变化较少,而“易位”(即一种化学类别的碱基被另一类别替换)更多。作者认为,错误的DNA修复以及一种称为基因转换的过程——其中一个重复拷贝覆盖另一个拷贝——可能驱动了这些重复区在胚胎早期阶段突变的过量发生。

这对我们理解突变意味着什么
通过在真实家庭中利用长读长测序,这项工作表明我们的基因组在重复DNA中积累的新发突变比以前认识的更多,且其中许多变化是在受孕后不久出现,而不仅仅发生在父母的卵子和精子中。一旦将这些早期胚胎突变计入,每代基因组变化的总体速率略有提高,而经典的短读长方法很可能错过了大量突变——尤其是在复杂重复区域。对于非专业读者,关键信息是:基因组的“暗物质”,长期被视为过于重复而无法研究,实际上比我们想象的更为活跃且对突变更为重要,理解这些区域随时间如何变化对于解释遗传变异及其与疾病的关联至关重要。
引用: Noyes, M.D., Sui, Y., Kwon, Y. et al. Long-read sequencing of families reveals increased germline and postzygotic mutation rates in repetitive DNA. Nat Commun 17, 3717 (2026). https://doi.org/10.1038/s41467-026-70342-1
关键词: 新发突变, 长读长测序, 重复性DNA, 片段重复, 合子后嵌合体