Clear Sky Science · de

Fehlercharakterisierung und Fehlerkorrekturansätze in kombinatorischer DNA‑basierter Speicherung

· Zurück zur Übersicht

Die Daten der Welt in DNA speichern

Unsere Telefone, Server und Cloud‑Zentren ersticken an Informationen, und traditionelle Speichertechnologien haben Mühe, Schritt zu halten. DNA — dasselbe Molekül, das genetische Informationen in Lebewesen trägt — bietet eine verlockende Alternative: Sie ist extrem dicht gepackt, langlebig und benötigt fast keine Energie zur Erhaltung. Diese Arbeit untersucht eine besonders leistungsfähige Variante der DNA‑Datenspeicherung, die sogenannte kombinatorische DNA‑Codierung, und zeigt, wie eine neue Art der Fehlerkorrektur sie in der Praxis deutlich zuverlässiger machen kann.

Mehr Bits in DNA packen

Konventionelle DNA‑Speicherung schreibt Daten, indem an jeder Position einer synthetischen DNA‑Strang eine der vier Basen (A, C, G, T) gewählt wird. Die kombinatorische DNA‑Codierung geht einen anderen Weg. Anstelle eines einzelnen kurzen DNA‑Fragments an jeder Position verwendet sie gezielt ausgewählte Kombinationen kurzer Fragmente. Jede Position in einer digitalen Nachricht wird nicht durch eine kurze Sequenz repräsentiert, sondern durch eine Menge davon, entnommen aus einer vordefinierten Bibliothek. Das steigert erheblich, wie viel Information in jedem Syntheseschritt untergebracht werden kann, und reduziert Kosten und Zeit. Gleichzeitig bedeutet es jedoch, dass das System, um einen einzelnen „Buchstaben“ korrekt zu lesen, alle Fragmente erkennen muss, die an dieser Position vorhanden sein sollten.

Figure 1
Figure 1.

Wenn Teile leise verschwinden

Da DNA‑Moleküle in großer Zahl produziert und gelesen werden, tritt dieselbe kombinatorische Sequenz mehrfach auf, wobei jede Kopie mit kleinen Unvollkommenheiten erzeugt und gelesen wird. Die Autoren untersuchten mehrere experimentelle Datensätze und entdeckten, dass eine spezifische Fehlerart in der kombinatorischen DNA‑Speicherung dominiert: das Auslöschen eines einzelnen Fragments aus einer ansonsten korrekten Kombination. Anders ausgedrückt wird ein Mitglied der Menge in den Sequenzier‑Reads schlichtweg nie beobachtet, obwohl die anderen vorhanden sind. Diese „asymmetrischen kombinatorischen Auslöschungen“ treten insbesondere dann häufig auf, wenn die Anzahl der Reads pro gespeicherter Sequenz gering ist — eine realistische Situation in groß angelegten Systemen, wo tieferes Sequenzieren teuer ist. Unter etwa 50 Reads pro Sequenz steigt die Häufigkeit solcher fehlenden Teile stark an, wodurch die Rekonstruktion der beabsichtigten Daten mit Standardmethoden schwierig bis unmöglich wird.

Fehler im größeren Maßstab untersuchen

Um über kleine Demonstrationen hinauszukommen, arbeitete das Team mit einem Industriepartner zusammen, um ein großes Proof‑of‑Concept‑Speichersystem mit kombinatorischer DNA zu bauen. Sie codierten Tausende von Bits Text in 640 verschiedene kombinatorische Sequenzen, die jeweils acht informationstragende Positionen umspannten. Spezialisierte Laborprotokolle assemblieren Pools von DNA‑Molekülen, wobei jedes Molekül eine Kombination kurzer Fragmente repräsentierte. Die Forscher sequenzierten dann Millionen von Reads und verwendeten eine angepasste Analyse‑Pipeline auf Basis von BLAST, einem bekannten Sequenzabgleichstool, um zu bestimmen, welche Fragmente an jeder Position erschienen. Dieser große Datensatz bestätigte die frühere Beobachtung: Bei hoher Lesetiefe konnten die meisten Kombinationen rekonstruiert werden, sank jedoch die durchschnittliche Zahl der Reads pro Sequenz, wurden fehlende Fragmente — und damit Auslöschungsfehler — zum hauptsächlichen Hindernis für eine genaue Decodierung.

Figure 2
Figure 2.

Ein Code, der einseitige Fehler erwartet

Traditionelle fehlerkorrigierende Verfahren, die in der DNA‑Speicherung eingesetzt werden, gehen häufig davon aus, dass Fehler ungefähr symmetrisch sind — Symbole könnten verwechselt, hinzugefügt oder verloren werden mit ähnlicher Wahrscheinlichkeit. Diese Annahme passt nicht zur kombinatorischen DNA, bei der das typische Versagen darin besteht, dass ein Fragment, das in der ursprünglichen Kombination vorhanden war, überhaupt nicht auftaucht, während falsche zusätzliche Fragmente vergleichsweise selten sind. Um dem zu begegnen, entwarfen die Autoren einen neuen fehlerkorrigierenden Code, den sie kombinatorischen VT‑Code nennen, der auf dieses einseitige Verhalten abgestimmt ist. Sie stellen jeden kombinatorischen Buchstaben als Zeile in einer binären Matrix dar und behandeln fehlende Fragmente als Bits, die nur von eins auf null umschlagen. Der Code verwendet für jeden Buchstaben einen mathematischen Fingerabdruck oder „Syndrom“, der aufdecken kann, welches Fragment fehlte, selbst wenn nur ein Teil der Kombination beobachtet wird. Diese Syndrome werden ihrerseits durch einen Reed–Solomon‑Code geschützt, wodurch sich mehrere solcher Fehler über eine Sequenz hinweg wiederherstellen lassen.

Die neue Methode auf die Probe gestellt

Die Forscher stellten ihren maßgeschneiderten Code einem konventionelleren zweidimensionalen Reed–Solomon‑Schema gegenüber, das zuvor in der DNA‑Speicherung verwendet worden war. Sie testeten beide in Softwaresimulationen und in einem zweiten groß angelegten Experiment, bei dem die Hälfte der Sequenzen durch die traditionelle Methode und die andere Hälfte durch den neuen kombinatorischen Code unter identischer Redundanz geschützt war. In einem Bereich von Bedingungen, die von Auslöschungsfehlern dominiert wurden, rekonstruierte der neue Ansatz häufiger die ursprünglichen Daten korrekt, insbesondere bei geringer Lesetiefe. Unter diesen härteren Bedingungen scheiterte der traditionelle Ansatz häufig beim Decodieren ganzer Sequenzen, während das kombinatorische VT‑Schema sie weiterhin wiederherstellte.

Warum das für zukünftige DNA‑Archive wichtig ist

Die Arbeit zeigt, dass die praktische Nutzung der DNA‑Datenspeicherung nicht nur darin besteht, mehr Bits in Moleküle zu pressen — es braucht auch Fehlerkorrektur, die zu den tatsächlichen Fehlermustern der verwendeten Laborprozesse passt. Indem sie sorgfältig untersucht haben, wie kombinatorische DNA‑Speicherung ausfällt, und Codes entworfen haben, die speziell erwarten, dass Fragmente verschwinden, weisen die Autoren einen klaren Weg zu zuverlässigeren und skalierbareren DNA‑Archiven. Wenn DNA‑basierte Systeme immer größere Datensammlungen bewältigen, werden solche maßgeschneiderten, asymmetrischen Fehlerkorrekturstrategien entscheidend sein, um fragile molekulare Gemische in vertrauenswürdige Langzeitspeicher zu verwandeln.

Zitation: Preuss, I., Sabary, O., Gabrys, R. et al. Error characterization and error correction approaches in combinatorial DNA-based storage. Sci Rep 16, 8093 (2026). https://doi.org/10.1038/s41598-026-38599-0

Schlüsselwörter: DNA‑Datenspeicherung, Fehlerkorrektur, kombinatorische Codierung, Auslöschungsfehler, Informationsdichte