Clear Sky Science · zh

Z-Calling:一种使用 PacBio HiFi 读取进行 A/Z(2,6-二氨基嘌呤)碱基判读和 dZ-DNA 检测的工具

· 返回目录

为何一种新型 DNA 很重要

我们常把 DNA 描述为生命的通用蓝图,由四个熟悉的字母构成:A、T、C 和 G。但有些病毒悄悄打破了这条规则,将字母 A 换成一种化学近亲,称为 Z,使它们的 DNA 更加坚固且更难被攻击。这一发现暗示了遗传多样性中隐藏的一层,对生物技术、医学甚至数据存储有重大影响。问题说起来简单但难以解决:科学家如何可靠地发现并绘制这种不寻常的 Z-DNA,尤其当它与普通 DNA 混杂在一起时?本研究介绍了 Z-Calling,一种利用现有长读长测序技术最终实现这一目标的计算工具。

Figure 1
Figure 1.

基因字母表中的一封奇怪信

在大多数生物中,碱基腺嘌呤(A)通过两根氢键与胸腺嘧啶(T)配对,帮助稳定经典的 DNA 双螺旋。一些噬菌体——感染细菌的病毒——演化出用 2,6-二氨基嘌呤(昵称 Z)替代 A 的策略。Z 与 T 形成三根氢键,使 DNA 螺旋更稳定并改变其物理行为。这种不寻常的化学特性可能使含 Z 的病毒在对抗宿主防御时占据优势,也为设计性能更优的分子打开了大门。研究人员已证明 Z 可提高遗传检测的灵敏度、调整 CRISPR 基因编辑反应并减少实验性 RNA 药物引起的免疫反应。然而,在没有办法精确定位 DNA 链上每个 Z 所在位置的情况下,完整理解或利用这些优势一直困难重重。

现有工具的局限

标准的 DNA 测序技术假定所有类 A 的信号确实就是 A,因此往往将 Z 误读为普通的腺嘌呤。像高效液相色谱这类化学方法可以检测总体上存在多少 Z,但无法指出每个 Z 在基因组中的具体位置,尤其在混杂多物种的环境样品中。一些第三代测序平台,如纳米孔设备,理论上对碱基差异足够敏感,但实际上在遇到不熟悉的化学修饰时信号常常嘈杂且难以解释。直到现在,还没有一种方便且可靠的方法可以扫描复杂的 DNA 混合物,清晰地区分普通 DNA 与含 Z 的 DNA,或逐个字母准确区分 A 与 Z。

倾听 DNA 合成的节奏

作者团队将注意力集中在 PacBio 环形共识测序(Circular Consensus Sequencing)上,这项技术反复复制同一条 DNA 分子并记录不仅哪个碱基被加入,还记录每次加入的速度。两项时间学测量——脉冲宽度(聚合酶加入一个碱基所用的时间)和脉冲间隔(连续加入之间的停顿)——构成了 DNA 合成的节奏轨迹。通过比较多种经过精心设计的 DNA 样本,包括普通 DNA、完全用 Z 替代的 DNA 以及 A 与 Z 混合的杂交分子,团队展示了将 A 换成 Z 会引起细微但一致的时间学变化。这些变化依赖于周围序列,并主要在 Z 位点附近的一个狭窄窗口内影响脉冲宽度,同时总体测序准确性几乎与未修饰的 DNA 相当。

Z-Calling 如何发现隐藏的 Z 碱基

基于这些时序模式,研究人员训练了机器学习模型来识别 Z 的动力学“口音”。他们的工具 Z-Calling 有两个主要功能。首先,它将整个测序读段分类为普通 DNA 或含 Z 的 DNA,即便在混合了多种物种和化学修饰的人工宏基因组中也能做到。它使用神经网络为每个类 A 位点打分,评估其是 Z 的可能性,然后将这些分数的分布输入到支持向量机中,决定整条读段是否来自 Z-DNA。其次,它执行逐位的单字母判别,根据局部序列上下文和动力学信号为每个位点判定为 A 或 Z。在细菌、酵母、植物、动物以及一种天然含 Z 的噬菌体的数据集中,这些模型达到了很高的准确性(曲线下面积约为 0.94–0.98),与检测常见 DNA 甲基化标记的领先工具相当。

Figure 2
Figure 2.

将该工具投入真实世界测试

为了证明 Z-Calling 在洁净实验构建之外也能工作,作者将其应用于一种在其基因组中部分用 Z 替代腺嘌呤的工程化酵母菌株。化学分析表明大约四分之一的类 A 位点被替换为 Z。Z-Calling 独立估计出类似的比例并绘制了 Z 在酵母染色体和质粒上的分布,显示总体呈随机散布。该工具还扫描了混合数据集,其中只有一小部分读段来自含 Z 的病毒或杂交基因组。即便含 Z 的读段仅占总数约百分之一,Z-Calling 仍能高置信度地标记其存在,同时在许多富含天然表观遗传标记的对照基因组中保持极低的误报率。

对未来的意义

通过将测序中的微妙时间学差异转化为清晰信号,Z-Calling 提供了首个可行的方法来系统性地绘制 Z 碱基出现的位置——逐碱基、逐基因组。对普通读者来说,关键信息是:我们的遗传字母表比人们曾经认为的更加灵活,而我们现在有能力以高分辨率读取这一最令人着迷的替代字母之一。此能力将帮助科学家在自然界中寻找更多基于 Z 的病毒,验证为增强稳定性或新功能而使用 Z 的工程生物体,并探索用于安全信息存储和先进治疗的奇异类 DNA 聚合物。简言之,Z-Calling 把一种鲜为人知的化学好奇转变为可在真实基因组中追踪的特征。

引用: Wu, B., Chen, Y., Zhou, Y. et al. Z-Calling: a tool for A/Z (2,6-diaminopurine) base calling and dZ-DNA detection using PacBio HiFi reads. Commun Biol 9, 594 (2026). https://doi.org/10.1038/s42003-026-09849-8

关键词: Z- DNA, 非常规碱基, PacBio 测序, 机器学习 基因组学, 噬菌体基因组学