Clear Sky Science · pt

Armazenamento e recuperação de dados com proteínas não naturais expressas por E. coli

· Voltar ao índice

Por que transformar dados em proteína importa

Nossos telefones, sensores e vidas online estão inundando o mundo com informação, e os discos rígidos e fitas magnéticas atuais podem não dar conta para sempre. Este estudo explora uma ideia radicalmente diferente: armazenar dados digitais dentro de proteínas produzidas em laboratório que podem ser fabricadas por bactérias comuns. Os autores mostram que essas proteínas customizadas podem conter mensagens, resistir a condições adversas melhor do que o DNA e até suportar truques avançados como acesso seletivo e informação "trancada" secreta.

Figure 1
Figure 1.

De uns e zeros a cadeias de blocos de construção

Qualquer arquivo digital é, em última análise, uma longa sequência de uns e zeros. Os pesquisadores primeiro convertem esses bits em uma sequência de aminoácidos, os pequenos blocos que formam as proteínas. Cada aminoácido escolhido representa um pequeno padrão de três bits, então uma cadeia de aminoácidos torna-se uma mensagem codificada. Essas sequências artificiais são então inseridas em projetos de proteínas mais longas e produzidas dentro de Escherichia coli, uma bactéria trabalhadora amplamente usada em biotecnologia. Uma vez produzidas, as proteínas são secas até virar um pó, que se torna o meio físico que armazena a informação.

Por que os primeiros projetos falharam e o colágeno indicou o caminho

A primeira abordagem da equipe simplesmente costurou muitos segmentos portadores de dados em uma única proteína longa. Embora elegante no papel, essas cadeias não naturais não se comportaram bem dentro de E. coli: foram mal produzidas e facilmente fragmentadas pelas próprias enzimas da célula. Para corrigir isso, os pesquisadores se inspiraram no colágeno, uma proteína estrutural resistente encontrada em ossos e restos fósseis que pode persistir por milhões de anos. Eles construíram um novo molde que imita o padrão repetitivo do colágeno e o fundiram com um domínio semelhante ao colágeno conhecido por expressar bem em bactérias. Essa estrutura no estilo colágeno ainda permite espaço para codificar dados, mas confere à proteína um formato mais natural que a célula tolera e que resiste à degradação indesejada.

Escrever, ler e ampliar a memória proteica

Com o projeto inspirado no colágeno, os cientistas armazenaram com sucesso textos em inglês e citações famosas de múltiplas línguas em várias proteínas diferentes. Eles demonstraram que E. coli pode produzir essas proteínas portadoras de dados em rendimentos úteis, e que ferramentas bioquímicas padrão podem purificá‑las sem esforço extremo. Para ler a informação armazenada, as proteínas são cortadas em pedaços menores por uma enzima e então analisadas por um espectrômetro de massa sensível que pesa os fragmentos. Um software customizado reconstrói as sequências originais de aminoácidos e as converte de volta em bits. Mesmo quando até cerca de um em dez fragmentos está faltando ou incorreto, códigos de correção de erros embutidos permitem recuperar as mensagens completas com precisão, inclusive quando muitas proteínas diferentes estão misturadas.

Figure 2
Figure 2.

Estabilidade, acesso seletivo e mensagens ocultas

Uma promessa chave do armazenamento molecular é a longa durabilidade. Os autores compararam uma de suas proteínas semelhantes ao colágeno com uma sequência de DNA carregando a mesma mensagem em condições de calor e acidez forte. A proteína manteve a maior parte de sua massa e permaneceu legível após dias a 70 graus Celsius e em pH muito baixo, enquanto o DNA degradou rapidamente. Em seguida, mostraram que etiquetas curtas extras adicionadas às extremidades da proteína podem atuar como códigos de barras: usando anticorpos correspondentes, eles puderam extrair apenas as proteínas relacionadas a uma citação escolhida de uma mistura complexa e ler apenas essa parte dos dados. Ao combinar proteínas "isca" com etiquetas comuns e proteínas "secretas" marcadas apenas com etiquetas especiais, eles construíram uma forma simples de criptografia molecular, onde somente alguém que conhece a etiqueta correta pode recuperar de forma confiável a mensagem oculta.

O que isso significa para o futuro dos dados

Este trabalho entrega a primeira demonstração completa de que proteínas inteiramente novas e não naturais podem atuar como um meio robusto para dados digitais, desde a escrita e armazenamento até a leitura precisa. Embora as capacidades e velocidades atuais estejam longe do uso cotidiano, a abordagem oferece densidade potencial muito alta e estabilidade impressionante, especialmente para arquivamento de longo prazo. À medida que as ferramentas para projetar, produzir e sequenciar proteínas continuarem a avançar, dados codificados em proteínas poderão complementar o DNA e o hardware tradicional, possibilitando arquivos duráveis na Terra ou mesmo no espaço, e potencialmente permitindo que informação seja armazenada diretamente dentro de sistemas vivos sob salvaguardas cuidadosas.

Citação: Zhou, Y., Ng, C.C.A., Liu, C. et al. Data storage and retrieval with unnatural proteins expressed via E. coli. Nat Commun 17, 3320 (2026). https://doi.org/10.1038/s41467-026-70061-7

Palavras-chave: armazenamento de dados em proteínas, memória molecular, expressão em E. coli, proteínas semelhantes ao colágeno, criptografia de dados