Clear Sky Science · es
Caracterización de errores y enfoques de corrección de errores en el almacenamiento combinatorio basado en ADN
Almacenando los datos del mundo en ADN
Nuestros teléfonos, servidores y centros en la nube están ahogados en información, y las tecnologías de almacenamiento tradicionales tienen dificultades para seguir el ritmo. El ADN —la misma molécula que porta la información genética en los seres vivos— ofrece una alternativa atractiva: es increíblemente denso, duradero y casi no necesita energía para conservarse. Este artículo explora una variante particularmente potente del almacenamiento de datos en ADN, llamada codificación combinatoria, y muestra cómo un nuevo tipo de corrección de errores puede hacerla mucho más fiable en la práctica.
Cómo empaquetar más bits en ADN
El almacenamiento convencional en ADN escribe datos eligiendo una de las cuatro bases (A, C, G, T) en cada posición a lo largo de una hebra sintética. La codificación combinatoria en ADN adopta un enfoque distinto. En lugar de usar un único fragmento corto de ADN en cada posición, utiliza combinaciones seleccionadas de fragmentos cortos. Cada posición de un mensaje digital no está representada por una sola secuencia corta, sino por un conjunto de ellas tomado de una biblioteca predefinida. Esto incrementa considerablemente la cantidad de información que se puede empaquetar en cada paso de síntesis, reduciendo costes y tiempo. Sin embargo, también implica que, para leer correctamente una sola “letra” del mensaje almacenado, el sistema debe detectar todos los fragmentos que deberían estar presentes en esa posición.

Cuando algunas piezas desaparecen silenciosamente
Dado que las moléculas de ADN se producen y leen en gran número, la misma secuencia combinatoria aparece muchas veces, cada copia hecha y leída con pequeñas imperfecciones. Los autores examinaron varios conjuntos de datos experimentales y descubrieron que un tipo específico de error domina en el almacenamiento combinatorio en ADN: el borrado de un único fragmento de una combinación por lo demás correcta. En otras palabras, un miembro del conjunto simplemente no se observa nunca en las lecturas de secuenciación, aunque los otros estén presentes. Estos “borrados combinatorios asimétricos” se vuelven especialmente comunes cuando el número de lecturas por secuencia almacenada es bajo —una situación realista en sistemas a gran escala, donde secuenciar más profundamente es caro. Por debajo de unas 50 lecturas por secuencia, la frecuencia de esas piezas faltantes aumenta bruscamente, haciendo difícil o imposible reconstruir los datos previstos con métodos estándar.
Analizando errores a mayor escala
Para ir más allá de demostraciones pequeñas, el equipo colaboró con un socio industrial para construir un gran sistema de prueba de concepto usando ADN combinatorio. Codificaron miles de bits de texto en 640 secuencias combinatorias distintas, cada una con ocho posiciones que contienen información. Protocolos de laboratorio especializados ensamblaron pocillos de moléculas de ADN donde cada molécula representaba una combinación de fragmentos cortos. Los investigadores secuenciaron millones de lecturas y utilizaron una tubería de análisis personalizada basada en BLAST, una herramienta conocida de alineamiento de secuencias, para encontrar qué fragmentos aparecían en cada posición. Este conjunto de datos a gran escala confirmó la observación previa: cuando la cobertura de lectura era alta, la mayoría de las combinaciones podían reconstruirse, pero cuando el número medio de lecturas por secuencia bajaba, los fragmentos faltantes —y por tanto los errores por borrado— se convertían en el principal obstáculo para una decodificación precisa.

Un código que espera errores unidireccionales
Los esquemas tradicionales de corrección de errores usados en el almacenamiento en ADN suelen asumir que los errores son aproximadamente simétricos: los símbolos pueden confundirse, añadirse o perderse con una probabilidad similar. Esa suposición no encaja con el ADN combinatorio, donde la falla típica es que un fragmento presente en la combinación original no aparece en absoluto, mientras que los fragmentos espurios adicionales son comparativamente raros. Para abordar esto, los autores diseñaron un nuevo código corrector de errores, llamado código VT combinatorio, que está ajustado a este comportamiento unidireccional. Representan cada letra combinatoria como una fila en una matriz binaria y tratan los fragmentos faltantes como bits que solo pasan de uno a cero. El código utiliza una huella matemática, o “síndrome”, para cada letra que puede revelar qué fragmento faltó, incluso cuando solo se observa parte de la combinación. Estos síndromes están a su vez protegidos por un código Reed–Solomon, lo que permite recuperar varios de esos errores a lo largo de una secuencia.
Poniendo a prueba el nuevo método
Los investigadores enfrentaron su código a medida contra un esquema bidimensional Reed–Solomon más convencional que se había usado previamente en almacenamiento en ADN. Probaron ambos en simulaciones por software y en un segundo experimento a gran escala, donde la mitad de las secuencias estaban protegidas por el método tradicional y la otra mitad por el nuevo código combinatorio, con la misma redundancia. En una gama de condiciones dominadas por errores por borrado, el nuevo enfoque reconstruyó los datos originales con mayor frecuencia, y lo hizo especialmente bien cuando la cobertura de lectura era baja. Bajo estas condiciones más severas, el enfoque tradicional frecuentemente fallaba al decodificar secuencias enteras, mientras que el esquema VT combinatorio seguía recuperándolas.
Por qué esto importa para futuros archivos en ADN
El trabajo muestra que hacer práctico el almacenamiento de datos en ADN no solo consiste en meter más bits en las moléculas, sino que también requiere corrección de errores que coincida con los patrones reales de error de los procesos de laboratorio empleados. Al estudiar cuidadosamente cómo falla el almacenamiento combinatorio en ADN y diseñar códigos que específicamente esperan que los fragmentos desaparezcan, los autores demuestran un camino claro hacia archivos de ADN más fiables y escalables. A medida que los sistemas basados en ADN crezcan para manejar colecciones de datos cada vez mayores, estrategias asimétricas de corrección de errores a medida serán esenciales para convertir mezclas moleculares frágiles en memorias a largo plazo confiables.
Cita: Preuss, I., Sabary, O., Gabrys, R. et al. Error characterization and error correction approaches in combinatorial DNA-based storage. Sci Rep 16, 8093 (2026). https://doi.org/10.1038/s41598-026-38599-0
Palabras clave: almacenamiento de datos en ADN, corrección de errores, codificación combinatoria, errores por borrado, densidad de información