Clear Sky Science · es
Almacenamiento y recuperación de datos con proteínas no naturales expresadas mediante E. coli
Por qué convertir datos en proteína importa
Nuestros teléfonos, sensores y vidas en línea están inundando el mundo de información, y los discos duros y cintas magnéticas actuales pueden no ser suficientes para siempre. Este estudio explora una idea notablemente diferente: almacenar datos digitales dentro de proteínas sintetizadas en laboratorio que pueden ser producidas por bacterias comunes. Los autores muestran que estas proteínas a medida pueden contener mensajes, resistir condiciones adversas mejor que el ADN e incluso admitir técnicas avanzadas como acceso selectivo e información secreta «bloqueada».

De unos y ceros a cadenas de bloques de construcción
Cualquier archivo digital es, en última instancia, una larga cadena de unos y ceros. Los investigadores primero convierten esos bits en una secuencia de aminoácidos, los pequeños bloques que componen las proteínas. Cada aminoácido elegido representa un patrón corto de tres bits, de modo que una cadena de aminoácidos se convierte en un mensaje codificado. Estas secuencias artificiales se insertan luego en diseños proteicos más largos y se producen dentro de Escherichia coli, una bacteria utilizada ampliamente en biotecnología. Una vez fabricadas, las proteínas se secan hasta convertirse en polvo, que actúa como el medio físico que almacena la información.
Por qué los diseños iniciales fallaban y el colágeno marcó el camino
El primer enfoque del equipo consistía en coser muchos segmentos portadores de datos en una sola proteína larga. Aunque elegante en teoría, estas cadenas no naturales no se comportaron bien dentro de E. coli: se producían en baja cantidad y eran fácilmente fragmentadas por las propias enzimas de la célula. Para resolverlo, los investigadores se inspiraron en el colágeno, una proteína estructural resistente presente en huesos y restos fósiles que puede persistir millones de años. Construyeron una nueva plantilla que imita el patrón repetitivo del colágeno y la fusionaron con un dominio similar al colágeno conocido por expresarse bien en bacterias. Este marco de estilo colágeno aún deja espacio para codificar datos, pero dota a la proteína de una forma más natural que la célula tolera y que resiste la degradación no deseada.
Escribir, leer y escalar la memoria proteica
Con el diseño inspirado en el colágeno, los científicos almacenaron con éxito textos en inglés y citas famosas en varios idiomas dentro de diferentes proteínas. Demostraron que E. coli puede producir estas proteínas portadoras de datos con rendimientos útiles y que herramientas bioquímicas estándar las pueden purificar sin un esfuerzo extremo. Para leer la información almacenada, las proteínas se cortan en fragmentos más cortos mediante una enzima y luego se analizan con un espectrómetro de masas sensible que pesa los fragmentos. Un software personalizado reconstruye las secuencias originales de aminoácidos y las convierte de nuevo en bits. Incluso cuando hasta aproximadamente uno de cada diez fragmentos falta o está equivocado, los códigos de corrección de errores incorporados permiten recuperar los mensajes completos con precisión, incluso cuando se mezclan muchas proteínas diferentes.

Estabilidad, acceso selectivo y mensajes ocultos
Una promesa clave del almacenamiento molecular es la longevidad. Los autores compararon una de sus proteínas tipo colágeno con una secuencia de ADN que llevaba el mismo mensaje bajo condiciones de calor y acidez fuerte. La proteína conservó la mayor parte de su masa y siguió siendo legible tras días a 70 grados Celsius y a pH muy bajo, mientras que el ADN se degradó rápidamente. Luego mostraron que etiquetas cortas adicionales añadidas a los extremos de la proteína pueden actuar como códigos de barras: usando anticuerpos a juego, pudieron extraer únicamente las proteínas relacionadas con una cita elegida de una mezcla compleja y leer solo esa parte de los datos. Al combinar proteínas «señuelo» con etiquetas ordinarias y proteínas «secretas» marcadas solo con etiquetas especiales, construyeron una forma sencilla de criptografía molecular, donde solo quien conoce la etiqueta correcta puede recuperar de forma fiable el mensaje oculto.
Qué significa esto para el futuro de los datos
Este trabajo ofrece la primera demostración completa de que proteínas totalmente nuevas y no naturales pueden actuar como un medio robusto para datos digitales, desde la escritura y el almacenamiento hasta la lectura precisa. Aunque las capacidades y velocidades actuales están lejos del uso cotidiano, el enfoque ofrece una densidad potencial muy alta y una estabilidad impresionante, especialmente para el archivo a largo plazo. A medida que las herramientas para diseñar, producir y secuenciar proteínas sigan avanzando, los datos codificados en proteínas podrían complementar al ADN y al hardware tradicional, posibilitando archivos duraderos en la Tierra o incluso en el espacio, y potencialmente permitiendo que la información se almacene directamente dentro de sistemas vivos bajo salvaguardas cuidadosas.
Cita: Zhou, Y., Ng, C.C.A., Liu, C. et al. Data storage and retrieval with unnatural proteins expressed via E. coli. Nat Commun 17, 3320 (2026). https://doi.org/10.1038/s41467-026-70061-7
Palabras clave: almacenamiento de datos en proteínas, memoria molecular, expresión en E. coli, proteínas tipo colágeno, criptografía de datos