Clear Sky Science · de
Vergleich modernster Fehlerkorrekturcodes für sequenzbasierte DNA-Datenspeicherung
Die Daten von morgen in der Festplatte der Natur speichern
Stellen Sie sich vor, die gesamten weltweiten Daten passten in etwas, das Sie in Ihrer Hand halten könnten. DNA, das Molekül, das genetische Informationen in Lebewesen speichert, kann prinzipiell Millionen Mal mehr Daten pro Gramm fassen als heutige Festplatten. Aber Filme, Fotos und Archive in DNA-Stränge zu übersetzen und sie fehlerfrei wieder auszulesen, ist kompliziert. Diese Studie stellt eine praktische Frage: Wie nahe sind wir mit heutiger Technologie und Software daran, DNA als ernsthafte Datensicherung zu nutzen, und welche digitalen „Übersetzungs“-Methoden funktionieren am besten?

Wie digitale Dateien zu DNA werden
Um Daten in DNA zu speichern, muss man gewöhnliche Computerbits in eine Sequenz der vier DNA-Bausteine umwandeln, diese Sequenz im Labor herstellen lassen, lagern und später mit DNA-Sequenzer wieder auslesen. Unterwegs kann viel schiefgehen: Manche DNA-Stränge verschwinden ganz, andere nehmen zusätzliche oder fehlende Basen auf, und wieder andere werden ungleich kopiert, so dass manche Sequenzen überrepräsentiert und andere selten sind. Um damit umzugehen, entwerfen Forscher spezielle Encoder–Decoder‑Software, sogenannte Codecs, die Redundanz hinzufügen—zusätzliche Informationen, mit denen man Fehler beheben und fehlende Teile rekonstruieren kann. Die Autorinnen und Autoren wählten sechs bekannte Codecs aus der Literatur aus und standardisierten sie, damit ein fairer Vergleich unter denselben Bedingungen möglich war.
DNA‑Speicher im Computer testen
Das Team führte zunächst umfassende Computersimulationen durch, um zu untersuchen, wie gut jeder Codec unterschiedliche Schadensarten übersteht. Sie simulierten Millionen kurzer DNA‑Fragmente, die jeweils ein Stück einer Testdatei trugen, und fügten dann zufällig Substitutionen, fehlende Basen, zusätzliche Basen oder sogar das vollständige Entfernen ganzer Sequenzen hinzu. Durch vielfaches Wiederholen dieser Experimente bestimmten sie die maximalen Fehlerraten und Verlustgrade, bei denen jeder Codec die Datei noch zuverlässig wiederherstellen konnte. Ein entscheidender Schritt war das »Clustern« der vielen verrauschten Kopien jeder DNA‑Sequenz und das Zusammenführen zu einer saubereren Konsensussequenz vor dem Dekodieren. Dieser einfache Trick verdoppelte ungefähr die Fehlertoleranz und beschleunigte zudem das Dekodieren, weil die Codecs weniger, dafür qualitativ hochwertigere Sequenzen verarbeiten mussten.
Von sauberen Laboren zur unordentlichen Realität
Reale DNA‑Speichersysteme unterscheiden sich stark in der Art ihrer Synthese und Handhabung, daher modellierten die Autorinnen und Autoren zwei praxisnahe Workflows. Ein »hochpräziser« Pfad nutzte einen modernen kommerziellen DNA‑Drucker und präzise Kopierenzyme, was niedrige Fehlerraten und geringen Strangverlust erzeugte. Ein »weniger präziser« Pfad verwendete eine günstigere, fehleranfälligere Synthesemethode und einen gröberen Kopierschritt, der mehr Fehler und fehlende Stränge einführte. Innerhalb jedes Pfads variierten sie, wie viele physische DNA‑Kopien gelagert wurden und wie tief der Pool sequenziert wurde, und offenbarten so einen Trade‑off zwischen Speicherdichte, Sequenzierkosten und Zuverlässigkeit. Manche Codecs gingen sehr gut mit zufälligen Buchstabenfehlern um, scheiterten aber, wenn viele ganze Stränge fehlten; andere waren ausgeglichener. Drei Ansätze—DNA‑Aeon, DNA‑RS und eine graphbasierte Methode namens DBGPS (im Silico getestet)—hoben sich als am robustesten gegenüber beiden Fehlerarten hervor.

Die DNA‑Speicherung an ihre Grenzen treiben
Um sicherzustellen, dass die Simulationen der Realität entsprachen, führten die Forschenden Laborversuche nach beiden Workflows durch und nutzten zwei kommerzielle DNA‑Synthesetechnologien. Sie kodierten kleine Bilddateien in über 11.000 DNA‑Sequenzen mit allen sechs Codecs, amplifizierten, verdünnten und sequenzierten die Pools erneut. Nachdem sie die Sequenziertiefe künstlich begrenzten, um realistische Leseetats widerzuspiegeln, prüften sie, ob die Originaldateien noch dekodiert werden konnten. Die besten Codecs stellten Daten bei Speicherdichten von etwa 43 Exabyte (Milliarden Gigabyte) pro Gramm DNA im hochqualitativen Workflow wieder her und etwa 13 Exabyte pro Gramm im weniger qualitativen Workflow—deutlich mehr als frühere experimentelle Rekorde und in etwa einer Größenordnung vom theoretischen Maximum entfernt.
Was das für künftige DNA‑Archive bedeutet
Die Studie zeigt, dass die heutigen Fehlerkorrekturmethoden für DNA‑Datenspeicherung bereits überraschend reif sind. Mit sorgfältig gewählten Codecs und Workflows ist es möglich, Daten bei extremen Dichten zu speichern und dennoch beträchtliche Fehler und Strangverluste zu tolerieren. Sie macht auch deutlich, dass einfache Tests—etwa nur zu zählen, wie viele zusätzliche Bits ein Codec hinzufügt oder mit vereinfachten Fehlersimulationen zu arbeiten—irreführend sein können; realistische Benchmarks müssen sowohl fehlende Stränge als auch basenebene Fehler berücksichtigen und sollten gegen bewährte, moderne Methoden vergleichen. Für Nicht‑Expertinnen und Nicht‑Experten lautet die Botschaft klar: DNA ist nicht mehr nur eine futuristische Idee zur Informationsspeicherung. Die Software‑Mechanik, die zuverlässige DNA‑Archive lesen und schreiben kann, ist vorhanden, und weitere Fortschritte werden eher durch die Verfeinerung der Laborverfahren und Skalierung kommen als durch die Erfindung völlig neuer Codes.
Zitation: Gimpel, A.L., Remschak, A., Stark, W.J. et al. Comparison of state-of-the-art error-correction coding for sequence-based DNA data storage. Nat Commun 17, 3963 (2026). https://doi.org/10.1038/s41467-026-70548-3
Schlüsselwörter: DNA-Datenspeicherung, Fehlerkorrektur, Datendichte, Coding‑Theorie, synthetische Biologie