Clear Sky Science · zh

用于基于序列的 DNA 数据存储的最先进纠错编码比较

· 返回目录

把明日的数据存入大自然的硬盘

想象把全世界的数据塞进你手掌大小的东西里。DNA——在生物体内储存遗传信息的分子——理论上每克能比当今硬盘多存放数百万倍的数据。但把电影、照片和档案变成 DNA 链并完美读回并不容易。本研究提出了一个实用问题:凭借现有的技术与软件,我们离把 DNA 用作重要数据保险库还有多近?哪些数字“翻译”方法最有效?

Figure 1
Figure 1.

数字文件如何变成 DNA

要把数据存入 DNA,必须把普通计算机的比特转换为四种 DNA 构件的序列,然后在实验室里合成该序列、保存,并在以后用测序仪读回。这个过程中会出现许多问题:有的 DNA 链完全消失,有的出现额外或缺失的碱基,还有的拷贝不均导致某些序列被过度代表而另一些很少。为应对这些情况,研究人员设计了特殊的编码—解码软件,称为编解码器(codec),它们加入冗余——额外信息用以修复错误并恢复丢失部分。作者从文献中挑选了六种知名的编解码器,并对它们进行了标准化,以便在相同条件下公平比较。

在计算机中测试 DNA 存储

研究组首先进行了详尽的计算机模拟,探查每种编解码器在不同损伤类型下的存活能力。他们模拟了数百万条短 DNA 片段,每条携带测试文件的一部分,然后随机引入替换、缺失碱基、插入或甚至移除整条序列。通过多次重复这些实验,他们确定了每种编解码器在仍能高可靠性恢复文件时所能承受的最高错误率和丢失率。一个关键步骤是对每条 DNA 链的众多噪声副本进行“聚类”,并将它们合并为更干净的共识序列再进行解码。这个简单技巧大约将错误容忍度提高了一倍,同时也加快了解码速度,因为编解码器要处理的序列更少且质量更高。

从洁净实验室到混乱现实

实际的 DNA 存储系统在合成和处理 DNA 上差异很大,因此作者建模了两种实用流程。一条“高保真”路径使用现代商业 DNA 打印机和精确的复制酶,产生低错误率和很少的序列丢失。另一条“低保真”路径使用更便宜但更易出错的合成方法和更粗糙的复制步骤,导致更多错误和缺失序列。在每条路径中,他们改变了存储的物理 DNA 复制数量和测序深度,揭示了存储密度、测序成本与可靠性之间的权衡。有些编解码器能很好地处理随机碱基错误,但在许多整条序列丢失时失败;另一些则更为均衡。三种方法——DNA‑Aeon、DNA‑RS 和一种基于图的 DBGPS(在计算机中测试)——在两种错误类型下表现最为稳健。

Figure 2
Figure 2.

把 DNA 存储推近极限

为确保模拟反映现实,研究人员在实验室中按照高保真与低保真流程分别进行了实验,使用了两种商业 DNA 合成技术。他们用六种编解码器将小型图像文件编码为超过 11,000 条 DNA 序列,然后扩增、稀释并重新测序这些池。通过人为限制测序深度以反映现实的读取预算,他们测试了是否仍能解码出原始文件。表现最好的编解码器在高质量流程下以约每克 DNA 43 艾字节(千亿千兆字节)的存储密度成功恢复数据,在低质量流程下约为每克 13 艾字节——明显高于先前的实验记录,并且在理论极限的大约一个数量级范围内。

这对未来 DNA 档案意味着什么

该研究表明,现有用于 DNA 数据存储的纠错方法已经出人意料地成熟。通过精心选择编解码器和流程,可以在容忍显著错误和序列丢失的情况下实现极高的存储密度。研究还强调了简单测试的局限性,例如仅统计编解码器添加了多少额外位或运行简单的错误模拟可能会产生误导;真实的基准测试必须同时考虑缺失的序列和碱基级错误,并应与经验证的最先进方法比较。对于非专家来说,信息很清楚:DNA 不再只是一个未来派的存储想法。读写可靠 DNA 档案所需的软件机制已经就位,接下来的进展更多将来自改进实验室方法和扩大规模,而不是发明全新的编码方案。

引用: Gimpel, A.L., Remschak, A., Stark, W.J. et al. Comparison of state-of-the-art error-correction coding for sequence-based DNA data storage. Nat Commun 17, 3963 (2026). https://doi.org/10.1038/s41467-026-70548-3

关键词: DNA 数据存储, 纠错, 数据密度, 编码理论, 合成生物学