Clear Sky Science · ru
Характеризация ошибок и подходы к их исправлению в комбинаторной ДНК‑памяти
Хранение мировых данных в ДНК
Наши телефоны, серверы и облачные центры тонут в информации, и традиционные носители едва успевают за ростом потребностей. ДНК — та же молекула, которая хранит генетическую информацию у живых организмов — предлагает заманчивую альтернативу: она невероятно плотна, долго сохраняется и почти не требует энергии для хранения. В этой статье рассматривается особенно мощный вариант ДНК‑хранения, называемый комбинаторным кодированием ДНК, и показано, как новый тип исправления ошибок может сделать его значительно надежнее на практике.
Как уместить больше бит в ДНК
Традиционное ДНК‑хранение записывает данные, выбирая одну из четырёх оснований (A, C, G, T) в каждой позиции синтетической цепочки. Комбинаторное кодирование ДНК использует иной подход. Вместо одного короткого фрагмента в каждой позиции оно применяет тщательно подобранные комбинации коротких фрагментов. Каждая позиция в цифровом сообщении представлена не одной короткой последовательностью, а множеством таких последовательностей, выбранных из заранее заданной библиотеки. Это существенно увеличивает объём информации, который можно вложить в каждый шаг синтеза, сокращая затраты и время. Однако это также означает, что для корректного чтения одной «буквы» закодированного сообщения система должна обнаружить все фрагменты, которые должны быть присутствуют в данной позиции.

Когда некоторые кусочки тихо исчезают
Поскольку молекулы ДНК синтезируются и читаются в большом количестве, одна и та же комбинаторная последовательность появляется многократно, и каждая копия синтезируется и считывается с небольшими погрешностями. Авторы проанализировали несколько экспериментальных наборов данных и обнаружили, что в комбинаторном ДНК‑хранении доминирует специфический тип ошибки: стирание одного фрагмента из в остальном правильной комбинации. Иными словами, один элемент множества просто никогда не встречается в результатах секвенирования, хотя остальные присутствуют. Эти «асимметричные комбинаторные стирания» особенно часто возникают при небольшом числе чтений на последовательность — реалистичная ситуация в масштабных системах, где глубокое секвенирование дорого. При среднем числе чтений ниже примерно 50 частота таких пропусков резко возрастает, что делает восстановление исходных данных стандартными методами трудным или невозможным.
Исследование ошибок в большем масштабе
Чтобы выйти за рамки небольших демонстраций, команда сотрудничала с промышленным партнером и построила крупную демонстрационную систему хранения на основе комбинаторной ДНК. Они закодировали тысячи бит текста в 640 различных комбинаторных последовательностей, каждая из которых занимала восемь позиций, несущих информацию. Специализированные лабораторные протоколы собирали пулы молекул ДНК, где каждая молекула представляла одну комбинацию коротких фрагментов. Затем исследователи провели секвенирование миллионов чтений и использовали специализированный аналитический конвейер на основе BLAST, известного инструмента выравнивания последовательностей, чтобы определить, какие фрагменты появлялись в каждой позиции. Этот большой набор данных подтвердил раннее наблюдение: при высокой глубине чтения большинство комбинаций можно восстановить, но при снижении среднего числа чтений на последовательность пропуски фрагментов — и, следовательно, ошибки‑стирания — становятся основным препятствием для точного декодирования.

Код, рассчитанный на односторонние ошибки
Традиционные схемы исправления ошибок, применяемые в ДНК‑хранении, часто предполагают, что ошибки примерно симметричны — символы могут путаться, добавляться или теряться с похожей вероятностью. Это предположение не подходит для комбинаторной ДНК, где типичная неисправность — это когда фрагмент, присутствовавший в оригинальной комбинации, вовсе не обнаруживается, тогда как ложные дополнительные фрагменты встречаются сравнительно редко. Чтобы справиться с этим, авторы разработали новый код коррекции ошибок, названный комбинаторным кодом VT, настроенный на такое одностороннее поведение. Они представляют каждую комбинаторную букву как строку в бинарной матрице и рассматривают пропавшие фрагменты как биты, переключающиеся только в один поляритет — из единицы в ноль. Код использует математический «отпечаток» или синдром для каждой буквы, который может указать, какой фрагмент пропал, даже когда наблюдается лишь часть комбинации. Эти синдромы сами защищены кодом Рида–Соломона, что позволяет восстановить несколько таких ошибок по ходу последовательности.
Испытание нового метода
Исследователи сравнили их специализированный код с более традиционной двумерной схемой Рида–Соломона, ранее использовавшейся в ДНК‑хранилищах. Они тестировали оба подхода в программных симуляциях и во втором крупном эксперименте, где половина последовательностей была защищена традиционным методом, а половина — новым комбинаторным кодом, при одинаковой избыточности. В ряде условий, где доминировали ошибки‑стирания, новый подход чаще восстанавливал исходные данные правильно, особенно при низкой глубине чтения. В более суровых условиях традиционный метод нередко не справлялся с декодированием целых последовательностей, тогда как схема комбинаторного VT по‑прежнему их восстанавливала.
Почему это важно для будущих архивов в ДНК
Работа показывает, что практичность ДНК‑хранения данных — это не только стремление уместить больше бит в молекулах, но и необходимость согласования методов исправления ошибок с реальными шаблонами ошибок лабораторных процессов. Тщательно изучив механизмы сбоев в комбинаторной ДНК‑памяти и разработав коды, специально ожидающие исчезновения фрагментов, авторы демонстрируют ясный путь к более надежным и масштабируемым ДНК‑архивам. По мере того как системы на основе ДНК будут обрабатывать всё большие объёмы данных, такие адаптированные асимметричные стратегии коррекции ошибок станут ключевыми для превращения хрупких молекулярных смесей в надёжную долгосрочную память.
Цитирование: Preuss, I., Sabary, O., Gabrys, R. et al. Error characterization and error correction approaches in combinatorial DNA-based storage. Sci Rep 16, 8093 (2026). https://doi.org/10.1038/s41598-026-38599-0
Ключевые слова: хранение данных в ДНК, исправление ошибок, комбинаторное кодирование, ошибки‑стирания, плотность информации