Clear Sky Science · it
Confronto tra codifiche di correzione degli errori all’avanguardia per l’archiviazione di dati in DNA basata su sequenze
Conservare i dati di domani nel disco rigido della natura
Immaginate di far entrare tutti i dati del mondo in qualcosa che potete tenere in mano. Il DNA, la molecola che immagazzina l’informazione genetica negli organismi viventi, può in linea di principio contenere milioni di volte più dati per grammo rispetto ai dischi rigidi odierni. Ma trasformare film, foto e archivi in filamenti di DNA e leggerli di nuovo perfettamente è complicato. Questo studio pone una domanda pratica: con le tecnologie e i software odierni, quanto siamo vicini a usare il DNA come un vero e proprio caveau di dati e quali metodi di “traduzione” digitale funzionano meglio?

Come i file digitali diventano DNA
Per salvare dati nel DNA bisogna convertire i normali bit del computer in una sequenza dei quattro mattoni del DNA, poi far sintetizzare quella sequenza in laboratorio, conservarla e in seguito leggerla con i sequenziatori. Lungo il percorso possono succedere molte cose: alcuni filamenti di DNA spariscono del tutto, altri acquisiscono lettere in più o ne perdono, e altri ancora vengono copiati in modo non uniforme così che alcune sequenze risultano molto rappresentate mentre altre sono rare. Per affrontare questi problemi, i ricercatori progettano software speciali di codifica-decodifica, chiamati codec, che aggiungono ridondanza—informazione extra che permette di correggere gli errori e recuperare i pezzi mancanti. Gli autori hanno selezionato sei codec noti dalla letteratura e li hanno standardizzati per poterli confrontare in modo equo nelle stesse condizioni.
Testare la memoria in DNA al computer
Il team ha prima eseguito simulazioni al computer esaustive per sondare quanto bene ogni codec potesse sopravvivere a diversi tipi di danno. Hanno simulato milioni di brevi frammenti di DNA, ciascuno portatore di un pezzo di un file di prova, poi hanno aggiunto casualmente sostituzioni, lettere mancanti, lettere extra o hanno addirittura rimosso intere sequenze. Ripetendo questi esperimenti molte volte, hanno determinato i tassi massimi di errore e perdita ai quali ogni codec riusciva ancora a recuperare il file con alta affidabilità. Un passaggio chiave è stato il “clustering” delle molte copie rumorose di ogni filamento e la loro fusione in una sequenza consenso più pulita prima della decodifica. Questo trucco semplice ha circa raddoppiato la tolleranza agli errori e ha anche accelerato la decodifica, perché i codec dovevano processare meno sequenze ma di qualità superiore.
Dai laboratori puliti alla realtà disordinata
I sistemi reali di archiviazione in DNA differiscono molto nei metodi di sintesi e gestione del DNA, così gli autori hanno modellato due flussi di lavoro pratici. Un percorso “ad alta fedeltà” ha usato una stampante di DNA commerciale moderna e enzimi di copia accurati, producendo bassi tassi di errore e poca perdita di filamenti. Un percorso “a bassa fedeltà” ha usato una sintesi più economica e più incline agli errori e una fase di copia più approssimativa, che ha introdotto più errori e filamenti mancanti. In ciascun percorso hanno variato quante copie fisiche di DNA erano immagazzinate e quanto profondamente il pool è stato sequenziato, rivelando un compromesso tra densità di archiviazione, costo del sequenziamento e affidabilità. Alcuni codec gestivano molto bene gli errori casuali a livello di lettera ma fallivano quando mancavano molti interi filamenti; altri erano più bilanciati. Tre approcci—DNA-Aeon, DNA-RS e un metodo basato su grafi chiamato DBGPS (testato in silico)—sono emersi come i più robusti in entrambi i tipi di errore.

Spingere l’archiviazione in DNA verso i suoi limiti
Per assicurarsi che le simulazioni corrispondessero alla realtà, i ricercatori hanno svolto esperimenti di laboratorio seguendo entrambi i flussi di lavoro ad alta e bassa fedeltà, usando due tecnologie commerciali di sintesi del DNA. Hanno codificato piccoli file immagine in oltre 11.000 sequenze di DNA con tutti e sei i codec, poi hanno amplificato, diluito e rieseguito il sequenziamento dei pool. Dopo aver limitato artificialmente la profondità di sequenziamento per riflettere budget di lettura realistici, hanno testato se i file originali potevano ancora essere decodificati. I migliori codec hanno recuperato con successo i dati a densità di archiviazione di circa 43 exabyte (miliardi di gigabyte) per grammo di DNA con il flusso ad alta qualità, e circa 13 exabyte per grammo con il flusso a bassa qualità—molto più alti dei record sperimentali precedenti e entro circa un ordine di grandezza dal limite teorico.
Cosa significa questo per gli archivi DNA del futuro
Lo studio mostra che i metodi di correzione degli errori odierni per l’archiviazione dei dati in DNA sono già sorprendentemente maturi. Con codec e flussi di lavoro scelti con cura, è possibile immagazzinare dati a densità estreme tollerando errori significativi e perdita di filamenti. Lo studio evidenzia anche che test semplici, come contare soltanto quanti bit extra un codec aggiunge o eseguire simulazioni di errore giocattolo, possono fuorviare; i benchmark realistici devono considerare sia i filamenti mancanti sia gli errori a livello di lettera, e dovrebbero confrontare i metodi contro le soluzioni all’avanguardia comprovate. Per i non esperti, il messaggio è chiaro: il DNA non è più solo un’idea futuristica per immagazzinare informazioni. Il motore software necessario per leggere e scrivere archivi affidabili in DNA è al suo posto, e i progressi futuri verranno dal perfezionare i metodi di laboratorio e scalare le procedure, più che dall’inventare codici completamente nuovi.
Citazione: Gimpel, A.L., Remschak, A., Stark, W.J. et al. Comparison of state-of-the-art error-correction coding for sequence-based DNA data storage. Nat Commun 17, 3963 (2026). https://doi.org/10.1038/s41467-026-70548-3
Parole chiave: archiviazione di dati in DNA, correzione degli errori, densità dei dati, teoria del coding, biologia sintetica