Clear Sky Science · sv
Jämförelse av toppmoderna felkorrigeringskoder för sekvensbaserad DNA-datalagring
Att lagra morgondagens data i naturens hårddisk
Föreställ dig att få plats med all världens data i något du kan hålla i handen. DNA, molekylen som lagrar genetisk information i levande organismer, kan i princip innehålla miljontals gånger mer data per gram än dagens hårddiskar. Men att omvandla filmer, fotografier och arkiv till DNA-strängar och läsa tillbaka dem felfritt är komplicerat. Denna studie ställer en praktisk fråga: med dagens teknik och mjukvara, hur nära är vi att använda DNA som ett seriöst datalagervarum, och vilka digitala “översättnings”metoder fungerar bäst?

Hur digitala filer blir DNA
För att spara data i DNA måste du översätta vanliga datorsiffror till en sekvens av DNA:s fyra byggstenar, låta den sekvensen tillverkas i labbet, lagras och senare läsas av med DNA-sekvenserare. Längs vägen kan många saker gå fel: vissa DNA-strängar försvinner helt, andra får extra eller saknade bokstäver, och åter andra kopieras ojämnt så att vissa sekvenser är överrepresenterade medan andra är sällsynta. För att hantera detta utformar forskare särskild encoder–decoder-mjukvara, kallad codecs, som lägger till redundans—extra information som låter dig rätta fel och återställa saknade delar. Författarna valde sex välkända codecs från litteraturen och standardiserade dem så att de kunde jämföras rättvist under samma villkor.
Test av DNA-lagring i datorn
Teamet körde först uttömmande datorsimuleringar för att undersöka hur väl varje codec kunde klara olika typer av skador. De simulerade miljoner korta DNA-fragment, där varje bar en bit av en testfil, och införde sedan slumpmässigt substitutioner, saknade bokstäver, extra bokstäver eller till och med borttagna hela sekvenser. Genom att upprepa dessa experiment många gånger bestämde de de högsta fel‑ och förlustnivåer vid vilka varje codec fortfarande kunde återställa filen med hög tillförlitlighet. Ett viktigt steg var ”klustring” av de många brusiga kopiorna av varje DNA-sträng och att slå ihop dem till en renare konsensussekvens före avkodning. Detta enkla knep fördubblade ungefär feltoleransen och snabbar också upp avkodningen, eftersom codecs fick färre, högkvalitativa sekvenser att bearbeta.
Från rena laboratorier till rörig verklighet
Riktiga DNA-lagringssystem skiljer sig stort i hur de syntetiserar och hanterar DNA, så författarna modellerade två praktiska arbetsflöden. En ”högkvalitativ” väg använde en modern kommersiell DNA-skrivare och noggranna kopieringsenzymer, vilket gav låga felnivåer och lite strandförlust. En ”lågfidelitets” väg använde en billigare, mer felbenägen syntesmetod och ett grövre kopieringssteg, vilket introducerade fler misstag och saknade strängar. Inom varje väg varierade de hur många fysiska DNA-kopior som lagrades och hur djupt poolen sekvenserades, vilket visade en avvägning mellan lagringstäthet, sekvenseringskostnad och tillförlitlighet. Vissa codecs hanterade slumpmässiga bokstavsfel mycket väl men misslyckades när många hela strängar saknades; andra var bättre balanserade. Tre tillvägagångssätt—DNA-Aeon, DNA-RS och en grafbaserad metod kallad DBGPS (testad in silico)—framträdde som mest robusta över båda feltyperna.

Pressa DNA-lagring mot dess gränser
För att säkerställa att simuleringarna matchade verkligheten utförde forskarna labbexperiment som följde både hög‑ och lågkvalitativa arbetsflöden, med två kommersiella DNA-syntesteknologier. De kodade små bildfiler till över 11 000 DNA-sekvenser med alla sex codecs, förstärkte, spädde ut och sekvenserade poolerna på nytt. Efter att konstgjort ha begränsat sekvenseringsdjupet för att återspegla realistiska läsbudgetar testade de om originalfilerna fortfarande kunde avkodas. De bästa codecs återställde framgångsrikt data vid lagringstätheter runt 43 exabyte (miljarder gigabyte) per gram DNA med arbetsflödet av hög kvalitet, och cirka 13 exabyte per gram med arbetsflödet av låg kvalitet—betydligt högre än tidigare experimentella rekord och inom ungefär en storleksordning från den teoretiska gränsen.
Vad detta betyder för framtida DNA-arkiv
Studien visar att dagens felkorrigeringsmetoder för DNA-datalagring redan är förvånansvärt mogna. Med noggrant utvalda codecs och arbetsflöden är det möjligt att lagra data vid extrema tätheter samtidigt som man tolererar betydande fel och strandförluster. Den belyser också att enkla tester, som att bara räkna hur många extra bitar en codec lägger till eller köra enklare felsimuleringar, kan vara vilseledande; realistiska benchmarktester måste beakta både saknade strängar och fel på bokstavsnivå, och bör jämföras mot beprövade toppmoderna metoder. För icke‑experter är budskapet tydligt: DNA är inte längre bara en futuristisk idé för informationslagring. Den mjukvarumekanism som behövs för att läsa och skriva tillförlitliga DNA‑arkiv finns på plats, och framtida framsteg kommer i hög grad från förfinade laboratoriemetoder och storskalig uppskalning snarare än att uppfinna helt nya koder.
Citering: Gimpel, A.L., Remschak, A., Stark, W.J. et al. Comparison of state-of-the-art error-correction coding for sequence-based DNA data storage. Nat Commun 17, 3963 (2026). https://doi.org/10.1038/s41467-026-70548-3
Nyckelord: DNA-datalagring, felkorrigering, datatäthet, kodningsteori, syntetisk biologi