Clear Sky Science · es

Comparación de los códigos de corrección de errores más avanzados para el almacenamiento de datos en ADN basado en secuencias

· Volver al índice

Almacenando los datos del mañana en el disco duro de la naturaleza

Imagínese almacenar todos los datos del mundo en algo que pueda sostenerse en la mano. El ADN, la molécula que guarda la información genética en los seres vivos, puede en principio contener millones de veces más datos por gramo que los discos duros actuales. Pero convertir películas, fotos y archivos en cadenas de ADN y leerlos de nuevo perfectamente es complicado. Este estudio plantea una pregunta práctica: con la tecnología y el software de hoy, ¿qué tan cerca estamos de usar el ADN como una bóveda de datos seria, y qué métodos digitales de “traducción” funcionan mejor?

Figure 1
Figure 1.

Cómo los archivos digitales se convierten en ADN

Para guardar datos en ADN es necesario convertir los bits de ordenador habituales en una secuencia de las cuatro bases del ADN, después fabricar esa secuencia en el laboratorio, almacenarla y más tarde leerla con secuenciadores. En el camino pueden fallar muchas cosas: algunas cadenas de ADN desaparecen por completo, otras adquieren letras extra o pierden letras, y otras se copian de forma desigual de modo que ciertas secuencias quedan sobrerrepresentadas mientras otras son escasas. Para afrontar esto, los investigadores diseñan software especial de codificación y decodificación, llamados códecs, que añaden redundancia: información extra que permite corregir errores y recuperar piezas perdidas. Los autores eligieron seis códecs conocidos de la literatura y los estandarizaron para poder compararlos con justicia bajo las mismas condiciones.

Probando la memoria ADN en el ordenador

El equipo primero ejecutó simulaciones informáticas exhaustivas para sondear cómo sobrevivía cada códec a diferentes tipos de daños. Simularon millones de fragmentos cortos de ADN, cada uno portando una parte de un archivo de prueba, y luego añadieron al azar sustituciones, letras faltantes, letras extra o incluso eliminaron secuencias enteras. Repetiendo estos experimentos muchas veces, determinaron las tasas máximas de error y pérdida a las que cada códec aún podía recuperar el archivo con alta fiabilidad. Un paso clave fue el “agrupamiento” de las muchas copias ruidosas de cada hebra de ADN y su fusión en una secuencia de consenso más limpia antes de la decodificación. Este truco simple aproximó a duplicar la tolerancia al error y también aceleró la decodificación, porque los códecs tuvieron menos secuencias pero de mayor calidad que procesar.

De laboratorios limpios a la realidad desordenada

Los sistemas reales de almacenamiento en ADN difieren mucho en cómo sintetizan y manipulan el ADN, así que los autores modelaron dos flujos de trabajo prácticos. Una vía de “alta fidelidad” usó una impresora de ADN comercial moderna y enzimas de copia precisas, produciendo bajas tasas de error y poca pérdida de hebras. Una vía de “baja fidelidad” empleó un método de síntesis más barato y propenso a errores y un paso de copiado menos fino, que introdujo más fallos y hebras faltantes. Dentro de cada vía variaron cuántas copias físicas de ADN se almacenaban y cuán profundamente se secuenciaba la piscina, revelando un compromiso entre densidad de almacenamiento, coste de secuenciación y fiabilidad. Algunos códecs manejaron muy bien los errores aleatorios de letras pero fracasaron cuando faltaban muchas hebras enteras; otros fueron más equilibrados. Tres aproximaciones—DNA‑Aeon, DNA‑RS y un método basado en grafos llamado DBGPS (probado in silico)—surgieron como las más robustas frente a ambos tipos de error.

Figure 2
Figure 2.

Empujando el almacenamiento en ADN hacia sus límites

Para garantizar que las simulaciones reflejaran la realidad, los investigadores realizaron experimentos de laboratorio siguiendo tanto los flujos de trabajo de alta como de baja fidelidad, usando dos tecnologías comerciales de síntesis de ADN. Codificaron pequeños archivos de imagen en más de 11.000 secuencias de ADN con los seis códecs, luego amplificaron, diluyeron y secuenciaron de nuevo las mezclas. Tras limitar artificialmente la profundidad de secuenciación para reflejar presupuestos de lectura realistas, probaron si los archivos originales aún podían decodificarse. Los mejores códecs recuperaron con éxito datos a densidades de almacenamiento de unos 43 exabytes (miles de millones de gigabytes) por gramo de ADN con el flujo de trabajo de alta calidad, y unos 13 exabytes por gramo con el flujo de baja calidad—muy por encima de registros experimentales previos y dentro de aproximadamente un orden de magnitud del límite teórico.

Qué significa esto para los futuros archivos en ADN

El estudio muestra que los métodos actuales de corrección de errores para el almacenamiento de datos en ADN ya están sorprendentemente maduros. Con códecs y flujos de trabajo cuidadosamente elegidos, es posible almacenar datos a densidades extremas al tiempo que se toleran errores significativos y pérdida de hebras. También subraya que pruebas simples, como contar únicamente cuántos bits extra añade un códec o ejecutar simulaciones de error de juguete, pueden ser engañosas; los benchmarks realistas deben considerar tanto hebras faltantes como errores a nivel de letra, y deben compararse con métodos probados de vanguardia. Para los no expertos, el mensaje es claro: el ADN ya no es solo una idea futurista para almacenar información. La maquinaria de software necesaria para leer y escribir archivos fiables en ADN está en su lugar, y el progreso futuro vendrá de refinar los métodos de laboratorio y escalar, más que de inventar códigos totalmente nuevos.

Cita: Gimpel, A.L., Remschak, A., Stark, W.J. et al. Comparison of state-of-the-art error-correction coding for sequence-based DNA data storage. Nat Commun 17, 3963 (2026). https://doi.org/10.1038/s41467-026-70548-3

Palabras clave: almacenamiento de datos en ADN, corrección de errores, densidad de datos, teoría del código, biología sintética