Clear Sky Science · ru

Сравнение современных методов коррекции ошибок для хранения данных в ДНК на основе последовательностей

· Назад к списку

Хранение данных завтрашнего дня в природном накопителе

Представьте, что все мировые данные можно уместить в объект, который можно держать в руке. ДНК, молекула, хранящая генетическую информацию у живых организмов, теоретически может содержать в миллионы раз больше данных на грамм, чем современные жесткие диски. Но превращение фильмов, фотографий и архивов в цепочки ДНК и их точное чтение — задача сложная. В этом исследовании ставится практический вопрос: на каком этапе мы сейчас, с точки зрения доступных технологий и программного обеспечения, насколько близки мы к использованию ДНК в качестве серьезного хранилища данных и какие цифровые «переводчики» работают лучше всего?

Figure 1
Figure 1.

Как цифровые файлы превращаются в ДНК

Чтобы сохранить данные в ДНК, нужно преобразовать привычные компьютерные биты в последовательность из четырех строительных блоков ДНК, затем синтезировать эту последовательность в лаборатории, сохранить ее и позже считать с помощью секвенаторов. По пути многое может пойти не так: некоторые молекулы ДНК исчезают полностью, другие получают лишние или пропущенные буквы, третьи копируются неравномерно, из‑за чего одни последовательности оказываются сильно представленные, а другие — редкими. Чтобы справиться с этим, исследователи разрабатывают специальные кодировщики–декодировщики, называемые кодеками, которые добавляют избыточность — дополнительную информацию, позволяющую исправлять ошибки и восстанавливать пропавшие фрагменты. Авторы выбрали шесть хорошо известных кодеков из литературы и стандартизировали их, чтобы можно было справедливо сравнить при одинаковых условиях.

Тестирование памяти ДНК в компьютере

Сначала команда провела исчерпывающие компьютерные симуляции, чтобы выяснить, насколько каждый кодек устойчив к разным видам повреждений. Они смоделировали миллионы коротких фрагментов ДНК, каждый из которых переносил часть тестового файла, затем случайным образом добавляли замены букв, пропуски, вставки или даже полностью удаляли целые последовательности. Повторяя эксперименты многократно, исследователи определили максимальные уровни ошибок и потерь, при которых каждый кодек по‑прежнему способен надежно восстановить файл. Важным шагом была «кластеризация» многочисленных шумных копий каждой ДНК‑цепочки и слияние их в более чистую консенсус‑последовательность перед декодированием. Этот простой прием примерно вдвое увеличивал устойчивость к ошибкам и ускорял декодирование, поскольку кодеки обрабатывали меньшее число более качественных последовательностей.

От чистых лабораторий к неидеальной реальности

Реальные системы хранения на основе ДНК сильно различаются по методам синтеза и обращения с молекулами, поэтому авторы смоделировали два практических рабочего потока. Путь «высокой точности» использовал современный коммерческий синтезатор ДНК и точные ферменты для копирования, что давало низкие уровни ошибок и мало потерь цепочек. Путь «низкой точности» применял более дешевые, более подверженные ошибкам методы синтеза и более грубый этап копирования, что вводило больше искажений и пропаж. Внутри каждого пути они варьировали число физических копий ДНК и глубину секвенирования пула, выявив компромисс между плотностью хранения, стоимостью считывания и надежностью. Некоторые кодеки очень хорошо справлялись со случайными заменами букв, но терпели неудачу при массовой потере целых цепочек; другие были более сбалансированы. Три подхода — DNA‑Aeon, DNA‑RS и графо‑ориентированный метод DBGPS (тестировавшийся in silico) — показали себя наиболее устойчивыми к обоим типам ошибок.

Figure 2
Figure 2.

Толкая хранение в ДНК к пределам возможностей

Чтобы убедиться, что симуляции соответствуют реальности, исследователи провели лабораторные эксперименты, следуя как высокоточной, так и низкоточной схемам, с использованием двух коммерческих технологий синтеза ДНК. Они закодировали небольшие файлы изображений в более чем 11 000 последовательностей ДНК всеми шестью кодеками, затем провели амплификацию, разведениe и повторное секвенирование пулов. Ограничив глубину секвенирования до реалистичных бюджетов чтения, они проверили, можно ли все еще декодировать исходные файлы. Лучшие кодеки успешно восстанавливали данные при плотностях хранения примерно 43 эксабайта (миллиард гигабайт) на грамм ДНК в сценарии высокого качества и около 13 эксабайтов на грамм в сценарии низкого качества — существенно выше предыдущих экспериментальных рекордов и примерно в одном порядке величины от теоретического предела.

Что это значит для будущих архивов на ДНК

Исследование показывает, что современные методы коррекции ошибок для хранения данных в ДНК уже находятся на удивительно зрелой стадии. При тщательном выборе кодеков и рабочих процедур можно хранить данные с экстремальной плотностью, при этом выдерживая значительные ошибки и потерю цепочек. Исследование также подчеркивает, что простые тесты — например, лишь подсчет добавленных кодеком лишних бит или запуск примитивных симуляций ошибок — могут вводить в заблуждение; реалистичные бенчмарки должны учитывать и пропавшие цепочки, и ошибки на уровне букв, а также сравнивать результаты с проверенными современными методами. Для непрофессионалов послание ясно: ДНК уже не просто футуристическая идея для хранения информации. Программные средства, необходимые для надежного чтения и записи хранилищ на ДНК, существуют, а дальнейший прогресс будет зависеть в основном от улучшения лабораторных методов и масштабирования, а не от изобретения совершенно новых кодов.

Цитирование: Gimpel, A.L., Remschak, A., Stark, W.J. et al. Comparison of state-of-the-art error-correction coding for sequence-based DNA data storage. Nat Commun 17, 3963 (2026). https://doi.org/10.1038/s41467-026-70548-3

Ключевые слова: хранение данных в ДНК, коррекция ошибок, плотность данных, теория кодирования, синтетическая биология