Clear Sky Science · nl
Vergelijking van de nieuwste foutencorrectiecodes voor sequentiegebaseerde DNA‑gegevensopslag
De data van morgen opslaan in het opslagmedium van de natuur
Stel je voor dat je alle gegevens ter wereld kunt opslaan in iets dat je in je hand kunt houden. DNA, het molecuul dat genetische informatie in levende wezens opslaat, kan in principe miljoenen keren meer gegevens per gram bevatten dan de huidige harde schijven. Maar films, foto’s en archieven omzetten in DNA‑strengen en die foutloos teruglezen is moeilijk. Deze studie stelt een praktische vraag: met de huidige technologie en software, hoe dicht zijn we bij het gebruik van DNA als serieuze gegevenskluis, en welke digitale "vertalings"methoden werken het beste?

Hoe digitale bestanden DNA worden
Om gegevens in DNA op te slaan, moet je gewone computerbits omzetten in een reeks van de vier DNA‑bouwstenen, die vervolgens in het laboratorium worden vervaardigd, opgeslagen en later teruggelezen met DNA‑sequencers. Onderweg kan veel misgaan: sommige DNA‑strengen verdwijnen volledig, andere krijgen extra of ontbrekende letters, en weer anderen worden ongelijk gekopieerd zodat sommige sequenties overvloedig aanwezig zijn terwijl andere zeldzaam blijven. Om hiermee om te gaan, ontwerpen onderzoekers speciale encoder–decoder‑software, codecs genoemd, die redundantie toevoegt—extra informatie waardoor je fouten kunt herstellen en ontbrekende stukken kunt terughalen. De auteurs selecteerden zes bekende codecs uit de literatuur en standaardiseerden ze zodat ze eerlijk onder dezelfde condities vergeleken konden worden.
DNA‑geheugen testen in de computer
Het team voerde eerst uitgebreide computersimulaties uit om te onderzoeken hoe goed elke codec verschillende soorten beschadiging kon overleven. Ze simuleerden miljoenen korte DNA‑fragmenten, elk met een deel van een testbestand, en voegden vervolgens willekeurig substituties, ontbrekende letters, extra letters of zelfs volledig verwijderde sequenties toe. Door deze experimenten vaak te herhalen bepaalden ze de hoogste fout‑ en verliespercentages waarbij elke codec het bestand nog met hoge betrouwbaarheid kon herstellen. Een belangrijke stap was het "clusteren" van de vele rumoerige kopieën van elke DNA‑streng en die samenvoegen tot een schonere consensussequentie voordat werd gedecodeerd. Deze eenvoudige truc verdubbelde grofweg de fouttolerantie en versnelde ook het decoderen, omdat de codecs minder, maar hogere kwaliteit sequenties hoefden te verwerken.
Van schone laboratoria naar rommelige realiteit
Reële DNA‑opslagsystemen verschillen sterk in hoe ze DNA synthetiseren en behandelen, dus modelleerden de auteurs twee praktische workflows. Een "hoge‑fideliteit" route gebruikte een moderne commerciële DNA‑printer en nauwkeurige kopieerenzymen, wat lage foutpercentages en weinig strengverlies opleverde. Een "lage‑fideliteit" route gebruikte een goedkopere, foutgevoeliger syntesemethode en een grovere kopieerstap, die meer fouten en ontbrekende strengen introduceerde. Binnen elke route varieerden ze hoeveel fysieke DNA‑kopieën werden opgeslagen en hoe diep de pool werd gesequenced, wat een afweging blootlegde tussen opslagdichtheid, sequencingkosten en betrouwbaarheid. Sommige codecs gingen heel goed om met willekeurige letterfouten maar faalden wanneer veel gehele strengen ontbraken; anderen waren evenwichtiger. Drie benaderingen—DNA‑Aeon, DNA‑RS en een grafgebaseerde methode genaamd DBGPS (in silico getest)—bleken het meest robuust over beide fouttypen.

DNA‑opslag naar zijn grenzen duwen
Om te zorgen dat de simulaties de praktijk weerspiegelden voerden de onderzoekers laboratoriumexperimenten uit volgens zowel de hoge‑ als lage‑fideliteitsworkflows, met twee commerciële DNA‑synthesetechnologieën. Ze codeerden kleine afbeeldingsbestanden in meer dan 11.000 DNA‑sequenties met alle zes codecs, versterkten, verdunden en hersequenceden de pools. Nadat ze de sequencingdiepte kunstmatig hadden beperkt om realistische leescapitaalscenario’s te simuleren, testten ze of de originele bestanden nog steeds konden worden gedecodeerd. De beste codecs herkenden succesvol data bij opslagdichtheden van ongeveer 43 exabytes (miljard gigabytes) per gram DNA met de hoogwaardige workflow, en ongeveer 13 exabytes per gram met de lage‑kwaliteit workflow—aanmerkelijk hoger dan eerdere experimentele records en binnen ruwweg één orde van grootte van de theoretische limiet.
Wat dit betekent voor toekomstige DNA‑archieven
De studie toont aan dat de huidige foutencorrectiemethoden voor DNA‑gegevensopslag al verrassend volwassen zijn. Met zorgvuldig gekozen codecs en workflows is het mogelijk om gegevens met extreme dichtheid op te slaan terwijl aanzienlijke fouten en strengverlies worden getolereerd. Het benadrukt ook dat eenvoudige tests, zoals alleen tellen hoeveel extra bits een codec toevoegt of het uitvoeren van vereenvoudigde foutensimulaties, misleidend kunnen zijn; realistische benchmarks moeten zowel ontbrekende strengen als foutniveaus op letterniveau meenemen en vergeleken worden met bewezen state‑of‑the‑art methoden. Voor niet‑experts is de boodschap helder: DNA is niet langer alleen een futuristisch idee voor het opslaan van informatie. De software‑infrastructuur om betrouwbare DNA‑archieven te schrijven en te lezen is aanwezig, en verdere vooruitgang zal komen door het verfijnen van labmethoden en opschaling, eerder dan door het uitvinden van volledig nieuwe codes.
Bronvermelding: Gimpel, A.L., Remschak, A., Stark, W.J. et al. Comparison of state-of-the-art error-correction coding for sequence-based DNA data storage. Nat Commun 17, 3963 (2026). https://doi.org/10.1038/s41467-026-70548-3
Trefwoorden: DNA‑gegevensopslag, foutcorrectie, gegevensdichtheid, codeertheorie, synthetische biologie