Clear Sky Science · zh
组合式基于DNA的存储中的错误表征与纠错方法
把世界的数据存入DNA
我们的手机、服务器和云中心被信息淹没,传统存储技术难以跟上。DNA——同样承载生物遗传信息的分子——提供了一种诱人的替代方案:它具有极高的密度、持久性强,而且几乎不需要能量来维持。本文探讨了一种特别强大的DNA数据存储形式,称为组合式DNA编码,并展示了一种新型纠错方法如何使其在实践中更可靠。
如何在DNA中装入更多比特
传统的DNA存储通过在合成DNA链的每个位置上选择四种碱基之一(A、C、G、T)来写入数据。组合式DNA编码采用不同策略。它不是在每个位置使用单个短片段,而是使用精心选择的短片段组合。数字信息中的每个位置不由一个短序列表示,而是由从预定义库中抽取的一组序列表示。这大大提高了每个合成步骤中可以装入的信息量,从而降低成本和时间。但这也意味着,要正确读取存储信息的单个“字母”,系统必须检测出该位置上应该出现的所有片段。

当某些片段悄然消失
因为DNA分子在大量生产和读取时出现,同一组合序列会多次出现,每个拷贝在生成和读取时都会有小的不完美。作者检查了若干实验数据集,发现组合式DNA存储中主导的一类错误是:在原本正确的组合中,单个片段被擦除。换言之,集合中的一个成员在测序读数中根本未被观察到,而其他成员却存在。当每个存储序列的读取次数较低时——这是大规模系统中常见的现实情况,因为更深的测序代价高昂——这种“非对称组合擦除”尤为常见。在序列每位读数低于大约50次时,这类缺失片段的频率急剧上升,使用标准方法重建原始数据会变得困难甚至不可能。
在更大规模上探测错误
为了超越小规模演示,研究团队与一家工业合作伙伴合作,构建了一个使用组合式DNA的大型概念验证存储系统。他们将数千比特的文本编码成640个不同的组合序列,每个序列包含八个携带信息的位置。专门的实验室流程组装了DNA分子池,每个分子代表一种短片段的组合。随后研究者测序了数百万条读数,并使用基于著名序列比对工具BLAST的定制分析流程,确定每个位置出现了哪些片段。该大规模数据集证实了先前的观察:当读数覆盖度高时,大多数组合可以被重建,但当每个序列的平均读数下降时,缺失片段——从而导致的擦除错误——成为准确解码的主要障碍。

一种预期单向错误的编码
传统用于DNA存储的纠错方案通常假设错误大致是对称的——符号可能被混淆、增加或丢失,概率相近。但这一假设并不适用于组合式DNA,其中典型失败模式是:原组合中存在的片段根本没有被观察到,而伪造的额外片段则相对罕见。为了解决这一问题,作者设计了一种新的纠错码,称为组合VT码,专门针对这种单向行为进行调优。他们将每个组合字母表示为二值矩阵的一行,并将缺失片段视为仅能从1翻转为0的比特。该码对每个字母使用一种数学指纹或“综合值”,即便只观察到组合的一部分,也能揭示哪个片段丢失。这些综合值本身由Reed–Solomon码保护,使得可以跨序列恢复若干此类错误。
将新方法付诸测试
研究者将其定制的编码与此前在DNA存储中使用的更常规的二维Reed–Solomon方案进行了对比。他们在软件模拟和第二次大规模实验中对两种方法进行了测试:在相同冗余度下,一半序列采用传统方法保护,另一半采用新的组合码。在以擦除错误为主的多种条件下,新方法更常正确重建原始数据,尤其在读数覆盖度低时表现尤为出色。在这些更苛刻的条件下,传统方法常常无法解码整条序列,而组合VT方案仍能成功恢复。
这对未来DNA档案的重要性
这项工作表明,使DNA数据存储实用化不仅仅是将更多比特压入分子——还需要与实验流程真实错误模式相匹配的纠错机制。通过仔细研究组合式DNA存储的失效方式,并设计专门针对片段丢失的编码,作者展示了一条通往更可靠、更可扩展DNA档案的明确路径。随着基于DNA的系统处理越来越大的数据集合,这类定制的非对称纠错策略将对于把脆弱的分子混合物转变为可信赖的长期记忆至关重要。
引用: Preuss, I., Sabary, O., Gabrys, R. et al. Error characterization and error correction approaches in combinatorial DNA-based storage. Sci Rep 16, 8093 (2026). https://doi.org/10.1038/s41598-026-38599-0
关键词: DNA数据存储, 纠错, 组合编码, 擦除错误, 信息密度