Clear Sky Science · zh
使用 ForkML 自动绘制人类细胞中 DNA 复制叉进展的图谱
为何追踪 DNA 复制速度很重要
每次人类细胞分裂时,都必须快速且准确地复制超过三十亿个 DNA 碱基。如果这一复制过程变慢或停滞,可能损伤基因组并促成癌症或发育异常。然而,直到现在,科学家还缺乏一种能够精确观察单个 DNA “复制机器”在特定人类 DNA 片段上移动速度的简便方法。本文介绍了 ForkML——一种结合纳米孔 DNA 测序与机器学习的新技术,能以前所未有的规模自动完成这一任务。
实时“观察”细胞的复制机器
DNA 由称为复制叉的微小分子机器沿双螺旋移动并合成新链。ForkML 通过在新合成的 DNA 中加入一种无害的化学标记 BrdU,进行两次非常短的脉冲给标记,从而间接“观察”这些复制叉。由于纳米孔测序可以在单分子水平检测到 BrdU,研究人员因此可以在每条 DNA 分子上看到两个被标记的“条带”,分别对应复制叉在两次脉冲期间经过的位置。测量两条条带之间的距离并除以已知的时间间隔,就能计算出该基因组区域中每个复制叉的移动速度。
教计算机读懂化学痕迹
在早期酵母研究中,作者可以用简单规则识别这些 BrdU 痕迹,但在人类细胞中信号更弱且更复杂。人类专家仍能识别出典型模式——脉冲开始时 BrdU 信号急剧上升,随后洗脱时缓慢下降——但对数百万条 DNA 片段用肉眼执行这一工作是不可能的。ForkML 通过在数千个人工注释的样本上训练神经网络(一种机器学习模型)来解决此问题。该模型学会将每段 DNA 分类为背景或朝右/朝左移动的复制叉,并高精度定位每次 BrdU 脉冲的起点。这使得从一次测序运行中自动绘制成千上万个单个复制叉速度成为可能。
测量复制压力并比较基因组差异
在一株人结肠癌细胞系中应用 ForkML,团队在每次实验中获得了超过 2,000 个复制叉速度测量值,发现典型复制叉的速度约为每分钟 1.2 千碱基,这与此前低通量方法的结果一致。当他们用已知会减慢 DNA 复制的药物处理细胞时,ForkML 明确检测到速度下降,证明它能敏感地测量复制应激。因为每个复制叉都被映射回参考基因组的位置,作者随后将速度与其他特征相关联,例如某一区域在细胞周期中通常何时复制、染色质的致密程度以及该区域的转录活性。
揭示复制起点及链间差异
除了速度之外,ForkML 还能通过识别复制叉在同一分子上分叉或会合的点来确定复制的起止位置。对超过 20,000 个此类起始位点的绘制表明,人类细胞采用混合策略:部分复制在明确的起始区发生,但大多数起始位点散布于整个基因组。通过结合复制叉方向与测序时读取到的是哪条 DNA 链,ForkML 还能够区分领先链与滞后链的合成速率——这是传统纤维法无法做到的。在六种不同的人类细胞系(包括正常与癌变细胞)上的测试表明,相同的 BrdU 标记条件具有良好的通用性,并在各例中产生稳健的速度估计。
对经典方法的数字化升级
对非专业读者而言,ForkML 可被视为经典 DNA 纤维分析的一种现代数字化版本:它采用类似的标记方案,但用长读长测序和机器学习取代了人工显微镜观察。这带来了更高的通量、将每次测量直接定位到基因组上的能力,以及关于复制位置与速度的更详尽信息。由于该方案简单、与当前纳米孔硬件兼容且可适用于其他生物体,ForkML 有望成为研究 DNA 复制的标准工具。从实际角度看,它为研究人员提供了一种强有力的方法,将局部 DNA 复制速度(无论正常还是处于应激)与基因活动、染色质状态以及与疾病相关的基因组变化联系起来。
引用: Rojat, V., Ciardo, D., Tourancheau, A. et al. Automated mapping of DNA replication fork progression in human cells with ForkML. Nat Commun 17, 1975 (2026). https://doi.org/10.1038/s41467-026-68750-4
关键词: DNA 复制, 复制叉速度, 纳米孔测序, BrdU 标记, 基因组学中的机器学习