Clear Sky Science · pt

Z-Calling: uma ferramenta para identificação de bases A/Z (2,6-diaminopurina) e detecção de dZ-DNA usando leituras PacBio HiFi

· Voltar ao índice

Por que um Novo Tipo de DNA Importa

O DNA é frequentemente descrito como o projeto universal da vida, construído a partir de quatro letras familiares: A, T, C e G. Mas alguns vírus quebram silenciosamente essa regra, trocando a letra A por uma prima química chamada Z que torna seu DNA mais resistente e mais difícil de atacar. Essa descoberta sugere a existência de uma camada oculta de diversidade genética com grandes implicações para biotecnologia, medicina e até armazenamento de dados. O desafio é simples de enunciar, mas difícil de resolver: como os cientistas podem encontrar e mapear de forma confiável esse incomum Z-DNA, especialmente quando ele está misturado com DNA comum? Este estudo apresenta o Z-Calling, uma ferramenta computacional que finalmente torna isso possível usando a tecnologia de sequenciamento de leitura longa já disponível.

Figure 1
Figure 1.

Uma Letra Estranha no Alfabeto Genético

Na maioria dos organismos, a base adenina (A) pareia com timina (T) por meio de duas ligações de hidrogênio, ajudando a estabilizar a clássica dupla hélice do DNA. Alguns bacteriófagos — vírus que infectam bactérias — evoluíram para substituir A por 2,6-diaminopurina, apelidada de Z. Z forma três ligações de hidrogênio com T, tornando a hélice de DNA mais estável e alterando seu comportamento físico. Essa química incomum pode conferir às partículas virais que contêm Z uma vantagem contra as defesas do hospedeiro e abre possibilidades para moléculas projetadas com desempenho superior. Pesquisadores já demonstraram que Z pode afinar testes genéticos, ajustar reações de edição gênica CRISPR e reduzir reações imunológicas a medicamentos experimentais de RNA. No entanto, sem um método para localizar exatamente onde o Z está em uma fita de DNA, tem sido difícil compreender ou aproveitar plenamente essas vantagens.

Ferramentas Atuais São Insuficientes

As tecnologias padrão de sequenciamento de DNA presumem que todos os sinais semelhantes a A são realmente A, por isso tendem a interpretar Z como adenina comum. Métodos químicos, como cromatografia líquida de alto desempenho, podem detectar quanto Z está presente em massa, mas não conseguem dizer onde cada Z está localizado ao longo de um genoma, especialmente em amostras ambientais complexas que misturam muitas espécies. Algumas plataformas de terceira geração, como dispositivos de nanopore, são teoricamente sensíveis o suficiente para perceber a diferença entre bases, mas na prática seus sinais podem ser ruidosos e difíceis de interpretar quando há química desconhecida presente. Até agora, não havia uma forma prática e confiável de escanear misturas complexas de DNA e separar claramente DNA normal de DNA contendo Z, ou distinguir A de Z letra por letra.

Ouvindo o Ritmo da Síntese do DNA

Os autores focaram no PacBio Circular Consensus Sequencing, uma tecnologia que copia repetidamente a mesma molécula de DNA e registra não apenas qual base é adicionada, mas também a velocidade de cada adição. Duas medidas temporais — pulse width (quanto tempo a polimerase leva para adicionar uma base) e inter-pulse duration (a pausa entre adições) — formam uma espécie de trilha rítmica da síntese do DNA. Ao comparar muitas amostras de DNA cuidadosamente desenhadas, incluindo DNA comum, DNA totalmente substituído por Z e moléculas híbridas onde A e Z coexistem, a equipe mostrou que trocar A por Z cria mudanças sutis, porém consistentes, nos tempos. Essas mudanças dependem da sequência circundante e afetam principalmente a pulse width dentro de uma janela estreita ao redor do sítio Z, enquanto a precisão geral do sequenciamento permanece quase tão alta quanto para o DNA não modificado.

Como o Z-Calling Encontra Bases Z Ocultas

Com base nesses padrões temporais, os pesquisadores treinaram modelos de aprendizado de máquina para reconhecer o “sotaque” cinético do Z. A ferramenta deles, Z-Calling, tem duas funções principais. Primeiro, ela classifica leituras de sequenciamento inteiras como DNA comum ou DNA contendo Z, mesmo em metagenomas artificiais que misturam muitas espécies e químicas. Faz isso usando uma rede neural para pontuar quão provável cada posição semelhante a A é de ser Z, e então alimentando a distribuição dessas pontuações em uma máquina de vetores de suporte que decide se a leitura inteira vem de DNA-Z. Segundo, realiza discriminação por letra única, atribuindo cada posição a A ou Z com base em seu contexto de sequência local e nos sinais cinéticos. Em conjuntos de dados de bactérias, leveduras, plantas, animais e um fago naturalmente contendo Z, esses modelos alcançaram alta precisão (valores de área sob a curva em torno de 0,94–0,98), semelhantes às ferramentas líderes que detectam marcas comuns de metilação do DNA.

Figure 2
Figure 2.

Testando a Ferramenta em Situações Reais

Para demonstrar que o Z-Calling funciona além de construções limpas de laboratório, os autores o aplicaram a uma linhagem de levedura projetada que substitui parcialmente adenina por Z em todo o genoma. A análise química indicou que aproximadamente um quarto de todas as posições semelhantes a A haviam se tornado Z. O Z-Calling estimou de forma independente uma fração semelhante e mapeou como o Z estava distribuído pelos cromossomos e plasmídeos da levedura, revelando uma distribuição amplamente aleatória. A ferramenta também vasculhou conjuntos de dados mistos nos quais apenas uma pequena fração das leituras pertencia a vírus de DNA-Z ou genomas híbridos. Mesmo quando leituras contendo Z representavam apenas cerca de um por cento do total, o Z-Calling ainda conseguia sinalizar sua presença com alta confiança, mantendo alarmes falsos extremamente raros em muitos genomas de controle ricos em marcas epigenéticas naturais.

O Que Isso Significa para o Futuro

Ao transformar sutis variações temporais do sequenciamento de DNA em sinais claros, o Z-Calling fornece a primeira maneira prática de mapear sistematicamente onde as bases Z aparecem, base a base e genoma a genoma. Para um leitor geral, a mensagem principal é que nosso alfabeto genético é mais flexível do que se pensava, e agora temos um método para ler uma de suas letras alternativas mais intrigantes com alta resolução. Essa capacidade ajudará cientistas a buscar mais vírus baseados em Z na natureza, validar organismos projetados que usam Z para maior estabilidade ou novas funções, e explorar polímeros exóticos semelhantes ao DNA para armazenamento seguro de informação e terapêuticas avançadas. Em suma, o Z-Calling transforma uma curiosidade química obscura em uma característica rastreável de genomas do mundo real.

Citação: Wu, B., Chen, Y., Zhou, Y. et al. Z-Calling: a tool for A/Z (2,6-diaminopurine) base calling and dZ-DNA detection using PacBio HiFi reads. Commun Biol 9, 594 (2026). https://doi.org/10.1038/s42003-026-09849-8

Palavras-chave: Z-DNA, bases não canônicas, sequenciamento PacBio, aprendizado de máquina em genômica, genômica de fagos