Clear Sky Science · pl
Charakterystyka błędów i metody korekcji w kombinacyjnym przechowywaniu danych w DNA
Przechowywanie światowych danych w DNA
Nasze telefony, serwery i centra chmurowe toną w informacjach, a tradycyjne technologie pamięci mają trudności, by nadążyć. DNA — ten sam związek, który przenosi informacje genetyczne u organizmów żywych — oferuje kuszącą alternatywę: jest niezwykle gęste, trwałe i niemal nie wymaga energii do przechowania. Niniejszy artykuł bada szczególnie wydajny wariant przechowywania danych w DNA, zwany kodowaniem kombinacyjnym, i pokazuje, jak nowy typ korekcji błędów może znacząco poprawić jego niezawodność w praktyce.
Jak upakować więcej bitów w DNA
Konwencjonalne przechowywanie w DNA zapisuje dane, wybierając na każdej pozycji syntetycznego łańcucha jedną z czterech zasad (A, C, G, T). Kodowanie kombinacyjne podchodzi do zagadnienia inaczej. Zamiast używać jednego krótkiego fragmentu DNA na każdej pozycji, stosuje starannie dobrane kombinacje krótkich fragmentów. Każda pozycja w wiadomości cyfrowej jest reprezentowana nie przez jedną krótką sekwencję, lecz przez zbiór sekwencji pobieranych z uprzednio zdefiniowanej biblioteki. To znacznie zwiększa ilość informacji, którą można zmieścić w każdym kroku syntezy, obniżając koszty i czas. Oznacza to jednak też, że aby poprawnie odczytać pojedynczą „literę” przechowywanej wiadomości, system musi wykryć wszystkie fragmenty, które powinny występować na tej pozycji.

Kiedy niektóre elementy cicho znikają
Ponieważ cząsteczki DNA są wytwarzane i odczytywane w dużych ilościach, ta sama kombinacyjna sekwencja pojawia się wielokrotnie, każda kopia z drobnymi niedoskonałościami. Autorzy przeanalizowali kilka zestawów danych eksperymentalnych i odkryli, że w kombinacyjnym przechowywaniu DNA dominuje specyficzny rodzaj błędu: wymazanie pojedynczego fragmentu z poprawnej kombinacji. Innymi słowy, jeden element zbioru po prostu nigdy nie pojawia się w odczytach sekwencjonowania, chociaż pozostałe są obecne. Te „asymetryczne wymazania kombinacyjne” stają się szczególnie powszechne, gdy liczba odczytów na zapisaną sekwencję jest niska — realistyczna sytuacja w systemach na dużą skalę, gdzie głębsze sekwencjonowanie jest kosztowne. Poniżej około 50 odczytów na sekwencję częstość takich brakujących fragmentów gwałtownie rośnie, utrudniając lub uniemożliwiając rekonstrukcję zamierzonych danych przy użyciu standardowych metod.
Badanie błędów w większej skali
Aby wyjść poza małe demonstracje, zespół współpracował z partnerem przemysłowym w celu zbudowania dużego systemu dowodowego wykorzystującego kodowanie kombinacyjne. Zaszyfrowali tysiące bitów tekstu w 640 odrębnych kombinacyjnych sekwencjach, z których każda obejmowała osiem pozycji niosących informację. Specjalistyczne protokoły laboratoryjne złożyły pule cząsteczek DNA, gdzie każda cząsteczka reprezentowała jedną kombinację krótkich fragmentów. Naukowcy następnie zsekwencjonowali miliony odczytów i użyli dostosowanej analizy opartej na BLAST — znanym narzędziu do dopasowywania sekwencji — aby ustalić, które fragmenty pojawiały się na poszczególnych pozycjach. Ten duży zbiór danych potwierdził wcześniejsze obserwacje: przy wysokim pokryciu odczytami większość kombinacji dało się zrekonstruować, ale gdy średnia liczba odczytów na sekwencję spadała, brakujące fragmenty — a zatem błędy wymazania — stawały się główną przeszkodą w poprawnym dekodowaniu.

Kod zakładający jednostronne błędy
Tradycyjne schematy korekcji błędów stosowane w przechowywaniu danych w DNA często zakładają, że błędy są mniej więcej symetryczne — symbole mogą być mylone, dodawane lub gubione z podobnym prawdopodobieństwem. To założenie nie pasuje do kombinacyjnego DNA, gdzie typowa awaria polega na tym, że fragment obecny w oryginalnej kombinacji w ogóle nie pojawia się w odczytach, podczas gdy fałszywe dodatkowe fragmenty są stosunkowo rzadkie. Aby sobie z tym poradzić, autorzy zaprojektowali nowy kod korekcyjny, nazwany kombinacyjnym kodem VT, dostrojony do takiego jednostronnego zachowania. Reprezentują każdą kombinacyjną literę jako wiersz w macierzy binarnej i traktują brakujące fragmenty jako bity, które mogą zmieniać się tylko z jedynki w zero. Kod używa matematycznego odcisku palca, czyli „syndromu”, dla każdej litery, który może ujawnić, który fragment został utracony, nawet gdy obserwowana jest tylko część kombinacji. Te syndromy są dodatkowo chronione kodem Reed–Solomona, co pozwala na naprawę kilku takich błędów w obrębie sekwencji.
Sprawdzenie nowej metody w praktyce
Naukowcy porównali opracowany kod z bardziej konwencjonalnym dwuwymiarowym schematem Reed–Solomona, który był wcześniej stosowany w przechowywaniu w DNA. Testowali oba rozwiązania w symulacjach programowych oraz w drugim eksperymencie na dużą skalę, gdzie połowa sekwencji była chroniona tradycyjną metodą, a połowa nowym kodem kombinacyjnym, przy identycznej redundancji. W warunkach zdominowanych przez błędy wymazania nowe podejście częściej rekonstruowało oryginalne dane poprawnie, szczególnie dobrze radząc sobie przy niskim pokryciu odczytami. W trudniejszych warunkach tradycyjne podejście często nie potrafiło zdekompresować całych sekwencji, podczas gdy schemat kombinacyjny VT wciąż je odzyskiwał.
Dlaczego to ma znaczenie dla przyszłych archiwów DNA
Praca pokazuje, że praktyczne wykorzystanie przechowywania danych w DNA to nie tylko upychanie większej liczby bitów w cząsteczkach — wymaga też korekcji błędów dopasowanej do rzeczywistych wzorców błędów procesów laboratoryjnych. Poprzez dokładne zbadanie, jak zawodzi kombinacyjne przechowywanie w DNA, i zaprojektowanie kodów, które spodziewają się specyficznie utraty fragmentów, autorzy wytyczają jasną drogę do bardziej niezawodnych i skalowalnych archiwów DNA. W miarę jak systemy oparte na DNA będą rosły, aby obsługiwać coraz większe zbiory danych, takie dostrojone, asymetryczne strategie korekcji błędów będą kluczowe, by zamienić kruche mieszanki molekularne w godne zaufania długoterminowe pamięci.
Cytowanie: Preuss, I., Sabary, O., Gabrys, R. et al. Error characterization and error correction approaches in combinatorial DNA-based storage. Sci Rep 16, 8093 (2026). https://doi.org/10.1038/s41598-026-38599-0
Słowa kluczowe: przechowywanie danych w DNA, korekcja błędów, kodowanie kombinacyjne, błędy wymazania, gęstość informacji