Clear Sky Science · it

Archiviazione e recupero di dati con proteine non naturali espresse tramite E. coli

· Torna all'indice

Perché trasformare i dati in proteine è importante

I nostri telefoni, sensori e le vite online stanno inondando il mondo di informazioni, e gli attuali dischi rigidi e nastri magnetici potrebbero non reggere per sempre. Questo studio esplora un’idea sorprendentemente diversa: conservare dati digitali all’interno di proteine sintetiche che possono essere prodotte da comuni batteri. Gli autori dimostrano che queste proteine personalizzate possono contenere messaggi, sopportare condizioni più estreme rispetto al DNA e persino supportare tecniche avanzate come l’accesso selettivo e informazioni segrete “bloccate”.

Figure 1
Figure 1.

Dai zero e uno alle catene di mattoni costitutivi

Qualsiasi file digitale è in ultima analisi una lunga sequenza di zero e uno. I ricercatori prima convertono questi bit in una sequenza di amminoacidi, i piccoli mattoni che compongono le proteine. Ogni amminoacido scelto rappresenta un breve schema di tre bit, quindi una catena di amminoacidi diventa un messaggio codificato. Queste sequenze artificiali vengono poi inserite in progettazioni proteiche più lunghe e prodotte all’interno di Escherichia coli, un batterio di riferimento ampiamente usato in biotecnologia. Una volta ottenute, le proteine vengono essiccate in una polvere, che diventa il supporto fisico che immagazzina l’informazione.

Perché i primi progetti incontravano difficoltà e il collagene ha indicato la via

Il primo approccio del team semplicemente cuciva insieme molti segmenti portatori di dati in un’unica proteina lunga. Pur elegante sulla carta, queste catene non naturali non si comportavano bene all’interno di E. coli: venivano prodotte male ed erano facilmente frammentate dagli enzimi della cellula. Per risolvere il problema, i ricercatori si sono ispirati al collagene, una proteina strutturale resistente presente nelle ossa e nei resti fossili che può persistere per milioni di anni. Hanno costruito un nuovo modello che imita il motivo ripetuto del collagene e lo hanno fuso con un dominio simile al collagene noto per esprimersi bene nei batteri. Questo impianto in stile collagene lascia ancora spazio per codificare dati, ma conferisce alla proteina una forma più naturale che la cellula può tollerare e che resiste alla degradazione indesiderata.

Scrivere, leggere e aumentare la scala della memoria proteica

Con il design ispirato al collagene, gli scienziati hanno immagazzinato con successo testi in inglese e citazioni famose in più lingue in diverse proteine. Hanno dimostrato che E. coli può produrre queste proteine portatrici di dati a rese utili e che strumenti biochimici standard possono purificarle senza sforzi estremi. Per leggere l’informazione immagazzinata, le proteine vengono tagliate in pezzi più corti da un enzima, quindi analizzate da uno spettrometro di massa sensibile che pesa i frammenti. Un software su misura ricostruisce le sequenze originali di amminoacidi e le riconverte in bit. Anche quando fino a circa uno frammento su dieci manca o è errato, codici di correzione degli errori incorporati consentono di recuperare accuratamente i messaggi completi, incluso quando molte proteine diverse sono mescolate insieme.

Figure 2
Figure 2.

Stabilità, accesso selettivo e messaggi nascosti

Una promessa chiave dell’archiviazione molecolare è la lunga durata. Gli autori hanno confrontato una delle loro proteine simili al collagene con una sequenza di DNA che porta lo stesso messaggio in condizioni calde e fortemente acide. La proteina ha mantenuto la maggior parte della sua massa ed è rimasta leggibile dopo giorni a 70 gradi Celsius e a pH molto basso, mentre il DNA si è degradato rapidamente. Hanno quindi mostrato che brevi tag aggiunti alle estremità delle proteine possono agire come codici a barre: usando anticorpi corrispondenti, sono riusciti a estrarre solo le proteine relative a una citazione scelta da una miscela complessa e leggere solo quella parte dei dati. Combinando proteine “esca” con tag ordinari e proteine “segrete” marcate solo con tag speciali, hanno costruito una forma semplice di crittografia molecolare, in cui solo chi conosce il tag corretto può recuperare in modo affidabile il messaggio nascosto.

Cosa significa per il futuro dei dati

Questo lavoro fornisce la prima dimostrazione completa che proteine interamente nuove e non naturali possono fungere da supporto robusto per dati digitali, dalla scrittura e conservazione fino alla lettura accurata. Sebbene le capacità e le velocità attuali siano lontane dall’uso quotidiano, l’approccio offre un potenziale di densità molto elevato e una stabilità impressionante, specialmente per l’archiviazione a lungo termine. Con il progresso degli strumenti per progettare, produrre e sequenziare proteine, i dati codificati nelle proteine potrebbero integrare il DNA e l’hardware tradizionale, consentendo archivi durevoli sulla Terra o anche nello spazio, e potenzialmente permettendo di immagazzinare informazioni direttamente all’interno di sistemi viventi sotto rigorose misure di sicurezza.

Citazione: Zhou, Y., Ng, C.C.A., Liu, C. et al. Data storage and retrieval with unnatural proteins expressed via E. coli. Nat Commun 17, 3320 (2026). https://doi.org/10.1038/s41467-026-70061-7

Parole chiave: archiviazione dati su proteine, memoria molecolare, espressione in E. coli, proteine simili al collagene, crittografia dei dati