Clear Sky Science · pt

A Retentive Network promove modelagem eficiente de linguagem de RNA para sequências longas

· Voltar ao índice

Ensinando computadores a ler as mensagens em RNA da vida

Cada célula do seu corpo está repleta de RNA, a molécula que ajuda a transformar instruções genéticas em matéria viva. Mas os biólogos de hoje enfrentam um dilúvio de dados de RNA que nenhum humano conseguiria ler linha por linha. Este artigo apresenta o RNAret, um modelo compacto de inteligência artificial que “lê” sequências de RNA de modo semelhante à linguagem e consegue lidar com trechos extremamente longos de texto genético. Seu objetivo é descobrir padrões ocultos que revelam como os RNAs se dobram, interagem e distinguem projetos funcionais de ruído de fundo — tudo isso usando muito menos poder computacional do que as ferramentas atuais.

Uma nova forma de ver padrões em RNA

O RNAret é construído sobre um desenho emergente de IA chamado Retentive Network, proposto originalmente como sucessor dos Transformers, os motores por trás de grandes modelos de linguagem para texto humano. Em vez de comparar cada posição em uma sequência com todas as outras — um passo que fica muito caro para cadeias longas — a abordagem Retentive permite que o modelo “retenha” informações importantes conforme avança, com custo que cresce apenas em proporção direta ao comprimento da sequência. Os autores adaptam essa ideia em um codificador que olha nas duas direções ao longo do RNA, criando um modelo leve com cerca de 12 milhões de parâmetros que ainda pode processar milhares de letras de RNA de uma só vez em uma GPU de pesquisa padrão.

Figure 1
Figure 1.

Aprendendo com milhões de sequências de RNA não rotuladas

Para ensinar ao RNAret a “gramática” do RNA, a equipe o treinou em quase 30 milhões de sequências de RNA não codificante do banco de dados RNAcentral, sem fornecer rótulos sobre tipo ou função. Eles usaram uma estratégia emprestada da modelagem de linguagem: esconder pequenos trechos da sequência e pedir ao modelo que adivinhe as partes faltantes. Ao longo de 600.000 passos de treinamento, o RNAret aprendeu de forma contínua a prever esses segmentos mascarados, o que indica que estava capturando regularidades na disposição das bases. Quando os pesquisadores posteriormente examinaram as representações internas produzidas pelo modelo, encontraram que RNAs com papéis e comprimentos semelhantes naturalmente se agrupavam em um espaço de baixa dimensão, mesmo que o modelo nunca tivesse sido informado a qual categoria cada sequência pertencia.

Aplicando o modelo a questões biológicas reais

Os autores então testaram se esses padrões aprendidos no RNA ajudam a resolver problemas práticos. Primeiro, o RNAret foi refinado para julgar se um RNA regulatório curto chamado microRNA pode se ligar a uma região-alvo em um RNA mais longo. Em um benchmark padrão com mais de 27.000 pares microRNA–mRNA, a versão do RNAret que lê fragmentos de cinco letras da sequência superou vários modelos de linguagem de RNA maiores e uma ferramenta de deep learning especializada, alcançando elevada acurácia e pontuações F1. Quando os pesquisadores inspecionaram os “escores de retenção” internos do modelo, viram que ele naturalmente focava na região “seed” do microRNA — o trecho chave conhecido por experimentos como determinante da ligação — e na seção correspondente do RNA alvo, indicando que as decisões do modelo se apoiavam em biologia real e não em atalhos espúrios.

Figure 2
Figure 2.

Reconstruindo formas e classificando tipos de RNA

Em seguida, a equipe desafiou o RNAret a prever como fitas simples de RNA se dobram sobre si mesmas em estruturas secundárias. Usando conjuntos de dados de benchmark limpos, a versão mais simples do RNAret (lendo uma base por vez) produziu mapas de contatos de pares de bases frequentemente mais próximos das estruturas conhecidas experimentalmente do que ferramentas populares de deep learning e termodinâmica, especialmente para RNAs de comprimento moderado. As saídas do modelo, combinadas com uma etapa de pós-processamento que impõe regras físicas sobre quais bases podem parear, geraram previsões mais limpas e com menos ruído. Em um terceiro teste, o RNAret aprendeu a distinguir RNAs codificadores de proteínas de longos RNAs não codificantes nos genomas humano e de camundongo. Como pode processar transcritos em comprimento total sem fragmentá-los, lidou bem com sequências parciais e longas, superando métodos clássicos baseados em quadro de leitura aberto e a maioria dos modelos concorrentes de linguagem de RNA, particularmente no grande conjunto de dados humano.

Rápido, eficiente e pronto para crescer

Além da acurácia, o RNAret foi projetado para ser rápido. Graças à sua arquitetura baseada em retenção, o modelo processa da ordem de cem mil unidades de RNA por segundo durante o pré-treinamento em uma GPU de alto desempenho e mantém eficiência mesmo quando refinado para previsão de estrutura ou classificação. Apesar de ser muito menor do que muitos modelos biológicos recentes, atinge desempenho de ponta ou próximo do estado da arte em tarefas diversas. Os autores veem isso como prova de conceito de que Retentive Networks podem servir como motores práticos e interpretáveis para análise de sequências biológicas. Com ajustes adicionais e extensões para DNA e proteínas, o RNAret e modelos correlatos podem se tornar ferramentas cotidianas para transformar dados de sequência bruta em insights sobre como moléculas interagem, se dobram e executam as instruções da vida.

Citação: Shen, Y., Cao, G., Hu, Y. et al. Retentive Network promotes efficient RNA language modeling of long sequences. Commun Biol 9, 575 (2026). https://doi.org/10.1038/s42003-026-09757-x

Palavras-chave: modelo de linguagem de RNA, Retentive Network, previsão de estrutura de RNA, interações de microRNA, RNA não codificante longo