Clear Sky Science · zh
一种信息论方法来量化核酸马达对序列依赖响应的程度,并将其应用于纳米孔DNA测序
用微小机器“读”DNA
你体内的每个细胞都依赖于沿着DNA爬行的微观机器来复制和修复遗传物质。如今,同类机器也驱动着快速的DNA测序仪。本文研究了一个看似简单但影响深远的问题:除了纳米孔测序中常用的电流信号外,这些微小机器运动的方式——它们停留的时间和偶尔向后退步的频率——中隐藏了多少额外的序列信息?作者用信息论的工具表明,这些微妙的运动可以显著提高读取DNA的准确性,并概述了如何为未来测序技术设计更佳的分子马达。

纳米孔如何把DNA变成信号
纳米孔测序通过将单股DNA穿过膜上的微小孔洞,同时测量离子流过孔的变化来工作。当不同的碱基组合占据孔的最窄处时,它们以各自不同的方式部分阻断电流,产生可以解码为序列的特征电信号。一个马达酶(在这里是称为Hel308的解旋酶)抓住DNA并以小步长将其送入孔中。因此,每一次测序“读数”不仅是电流轨迹,还是解旋酶运动的详细记录:它在每个位置等待的时长以及是否偶尔发生回退。
用信息论测量隐藏线索
作者使用一种称为互信息的概念来量化DNA序列对不同观测量的控制强度:离子电流、Hel308在每一步的停留时间以及其向后迈步的概率。互信息以比特为单位回答:平均而言,我们能从给定信号中学到多少关于某个DNA碱基的信息?通过分析数千次测量,他们发现电流对位于孔收缩处大约四个碱基的短序列最敏感,而Hel308的运动主要受距离孔远16–21个位置处碱基的支配。特别是,大约距孔17和20个核苷酸处的两个位置显著影响酶的停留时间和回退概率。将停留时间与回退行为结合起来,比单独使用任一特征能揭示更多关于这些位置的信息。
从运动到序列构建映射
测序设备通常依赖“k-mer”模型,将一小段相邻的k个碱基与一个特征信号关联起来。在这里,作者将该思想应用于解旋酶的运动。他们构建了模型,使得若干关键位置上的特定碱基对或三联体联合决定停留时间和回退模式。信息论表明,某些组合——例如位置17和20的碱基,或包括16、17和20位的三核苷体——所携带的信息远超过任何单个碱基。换言之,酶并非只“感受”单个碱基;它对分布在链上的小序列基元有反应,而这些反应可以系统地被映射出来。

模拟测序显示巨大利益
为测试这种基于运动的额外信息在实践中的价值,团队使用对电流和动力学都现实的模型模拟了纳米孔测序运行。然后他们用解码算法从三种输入类型重建DNA序列:仅电流、仅动力学、以及两者合并。仅靠离子电流已能获得良好表现,而仅靠动力学的准确度较低。但当两者结合时,错误率显著下降——在高覆盖度下比仅用电流大约降低四到五倍。值得注意的是,少量同时使用两类信号的读数就能胜过大量仅使用电流的读数,这表明若充分利用动力学数据,测序可以更快且更准确。
调谐分子马达本身
研究者还探讨了通过改变解旋酶本身如何进一步提升性能。基于结构数据,他们对Hel308中与DNA接触的个别氨基酸进行了突变,并检查这些变化如何影响停留时间和回退。大多数突变影响不大,但少数突变导致酶停留时长和回退频率发生大的、系统性的变化,同时保留其对序列的敏感性。蛋白中两个特定位置尤其对应信息分析中突出的关键序列位置,提示特定氨基酸与酶的序列感应行为之间存在直接联系。研究还显示存在权衡:携带每步略多信息的突变体移动更慢,因此其每秒总信息量与原始酶相近。
这对未来读取DNA有何意义
对非专家而言,结论是:纳米孔测序仪不仅能读取DNA的电学模式,它们还可以“倾听”分子马达沿链行进时的行为。该工作提供了一种严格的方法来衡量运动中携带了多少额外的序列信息,并表明将其纳入分析可以大幅提高准确性,尤其是在重复序列或扩展的遗传字母表等难测区域。通过将信息论作为设计和筛选工具,科学家可以系统地设计出其停顿与踉跄更有助于读取DNA序列的马达酶,从而为更快速、更可靠且更通用的测序技术打开大门。
引用: Craig, J.M., Laszlo, A.H., Brinkerhoff, H. et al. An information theory approach to quantifying the sequence-dependent response of nucleic acid motors with applications to nanopore DNA sequencing. Nat Commun 17, 3231 (2026). https://doi.org/10.1038/s41467-026-69867-2
关键词: 纳米孔测序, 解旋酶动力学, 信息论, DNA 马达酶, k-mer 模型