Clear Sky Science · pl
Porównanie najnowocześniejszych kodów korekcji błędów dla przechowywania danych w DNA opartych na sekwencjach
Przechowywanie danych jutra w naturalnym dysku
Wyobraź sobie zmieszczenie wszystkich danych świata w czymś, co możesz trzymać w dłoni. DNA, cząsteczka przechowująca informacje genetyczne u organizmów żywych, może potencjalnie pomieścić miliony razy więcej danych na gram niż dzisiejsze dyski twarde. Jednak zamiana filmów, zdjęć i archiwów w nici DNA i ich bezbłędne odczytanie jest trudna. W tym badaniu postawiono praktyczne pytanie: przy dzisiejszej technologii i oprogramowaniu, jak blisko jesteśmy użycia DNA jako poważnego magazynu danych i które metody „tłumaczenia” cyfrowego działają najlepiej?

Jak pliki cyfrowe stają się DNA
Aby zapisać dane w DNA, trzeba przekonwertować zwykłe bity komputera na sekwencję czterech budulców DNA, potem tę sekwencję wytworzyć w laboratorium, przechować i później odczytać za pomocą sekwencerów DNA. Po drodze wiele rzeczy może się nie udać: niektóre nici DNA znikają całkowicie, inne zyskują dodatkowe lub tracą litery, a jeszcze inne są kopiowane w nierównych ilościach, tak że niektóre sekwencje są nadreprezentowane, podczas gdy inne są rzadkie. Aby sobie z tym poradzić, badacze projektują specjalne oprogramowanie kodujące i dekodujące, zwane kodekami, które dodaje redundancję — dodatkowe informacje pozwalające naprawić błędy i odzyskać brakujące elementy. Autorzy wybrali sześć znanych kodeków z literatury i ustandaryzowali je, aby móc je porównać na równych warunkach.
Testowanie pamięci DNA w komputerze
Zespół najpierw przeprowadził wyczerpujące symulacje komputerowe, aby sprawdzić, jak każdy kodek radzi sobie z różnymi rodzajami uszkodzeń. Zasymulowali miliony krótkich fragmentów DNA, z których każdy przenosił część pliku testowego, a następnie losowo dodawali podstawienia, brakujące litery, dodatkowe litery, a nawet usuwali całe sekwencje. Powtarzając te eksperymenty wielokrotnie, ustalili maksymalne poziomy błędów i strat, przy których każdy kodek nadal mógł odtworzyć plik z wysoką niezawodnością. Kluczowym etapem było „grupowanie” wielu zaszumionych kopii każdej nici DNA i scalanie ich w czystszy ciąg konsensusowy przed dekodowaniem. Ten prosty zabieg w przybliżeniu podwoił tolerancję na błędy i przyspieszył dekodowanie, ponieważ kodeki miały mniej, ale lepszej jakości sekwencji do przetworzenia.
Od czystych laboratoriów do chaotycznej rzeczywistości
Rzeczywiste systemy przechowywania w DNA znacznie różnią się sposobem syntezy i obchodzenia się z DNA, więc autorzy zamodelowali dwa praktyczne przepływy pracy. Ścieżka „wysokiej wiarygodności” używała nowoczesnej komercyjnej drukarki DNA i dokładnych enzymów kopiujących, co skutkowało niskimi współczynnikami błędów i niewielkimi stratami nici. Ścieżka „niskiej wiarygodności” używała tańszej, bardziej podatnej na błędy metody syntezy i mniej precyzyjnego kroku kopiowania, co wprowadzało więcej pomyłek i brakujących nici. W każdej ścieżce modyfikowali liczbę fizycznych kopii DNA przechowywanych oraz głębokość sekwencjonowania próbki, ujawniając kompromis między gęstością zapisu, kosztem sekwencjonowania i niezawodnością. Niektóre kodeki bardzo dobrze radziły sobie z losowymi błędami liter, ale zawodziły, gdy brakowało wielu całych nici; inne były lepiej zrównoważone. Trzy podejścia — DNA‑Aeon, DNA‑RS i metoda oparta na grafie nazwana DBGPS (testowana in silico) — okazały się najbardziej odporne na oba typy błędów.

Wypychanie limitów przechowywania w DNA
Aby upewnić się, że symulacje odpowiadają rzeczywistości, badacze przeprowadzili eksperymenty laboratoryjne zgodne zarówno ze ścieżkami wysokiej, jak i niskiej wiarygodności, wykorzystując dwie komercyjne technologie syntezy DNA. Zakodowali małe pliki obrazów w ponad 11 000 sekwencji DNA za pomocą wszystkich sześciu kodeków, następnie amplifikowali, rozcieńczali i ponownie sekwencjonowali pule. Po celowym ograniczeniu głębokości sekwencjonowania, aby odzwierciedlić realistyczne budżety odczytów, sprawdzili, czy oryginalne pliki nadal można zdekodować. Najlepsze kodeki pomyślnie odzyskały dane przy gęstości zapisu około 43 eksabajtów (miliardów gigabajtów) na gram DNA w ścieżce wysokiej jakości oraz około 13 eksabajtów na gram w ścieżce niskiej jakości — to znacząco więcej niż wcześniejsze wyniki eksperymentalne i w przybliżeniu rząd wielkości od granicy teoretycznej.
Co to oznacza dla przyszłych archiwów DNA
Badanie pokazuje, że dzisiejsze metody korekcji błędów dla przechowywania danych w DNA są już zaskakująco dojrzałe. Przy starannie dobranych kodekach i przepływach pracy możliwe jest przechowywanie danych przy ekstremalnej gęstości jednocześnie tolerując znaczące błędy i utraty nici. Podkreśla też, że proste testy, takie jak jedynie liczenie, ile dodatkowych bitów dodaje kodek, czy uruchamianie uproszczonych symulacji błędów, mogą wprowadzać w błąd; realistyczne benchmarki muszą uwzględniać zarówno brakujące nici, jak i błędy na poziomie liter, i porównywać wyniki z uznanymi metodami. Dla laików przekaz jest jasny: DNA nie jest już tylko futurystycznym pomysłem na przechowywanie informacji. Oprogramowanie potrzebne do zapisu i odczytu niezawodnych archiwów DNA jest dostępne, a dalszy postęp będzie wynikał z udoskonalania metod laboratoryjnych i skalowania, a nie z konieczności wynalezienia zupełnie nowych kodów.
Cytowanie: Gimpel, A.L., Remschak, A., Stark, W.J. et al. Comparison of state-of-the-art error-correction coding for sequence-based DNA data storage. Nat Commun 17, 3963 (2026). https://doi.org/10.1038/s41467-026-70548-3
Słowa kluczowe: przechowywanie danych w DNA, korekcja błędów, gęstość danych, teoria kodowania, biologia syntetyczna