Clear Sky Science · pt
JanusDDG: uma rede neural informada pela física para estabilidade de proteínas baseada em sequência via atenção de duas frentes
Por que esta pesquisa importa
Proteínas são as pequenas máquinas que mantêm nossas células vivas, e até uma única alteração em seus blocos de construção pode fazê-las funcionar melhor, pior ou deixar de funcionar. Ser capaz de prever como essas mudanças afetam a estabilidade de uma proteína é crucial para entender doenças genéticas e para projetar medicamentos e enzimas industriais melhores. Este artigo apresenta o JanusDDG, um novo modelo de inteligência artificial que prevê como mutações alteram a estabilidade de proteínas usando somente a sequência da proteína, ao mesmo tempo em que obedece às regras físicas básicas que governam como as proteínas se dobram.
O problema das máquinas proteicas frágeis
Quando uma proteína se dobra em sua forma tridimensional, ela equilibra muitas forças, como uma tenda sustentada por várias cordas. Mutações podem apertar algumas cordas ou afrouxar outras, tornando a estrutura mais ou menos estável. Testes experimentais desses efeitos são lentos e caros, então os pesquisadores dependem fortemente de modelos computacionais para estimar mudanças na estabilidade, conhecidas como ΔΔG. Ferramentas existentes frequentemente funcionam melhor quando têm acesso a estruturas 3D detalhadas, e podem violar silenciosamente regras da termodinâmica, levando a previsões que parecem precisas no papel, mas são fisicamente inconsistentes ou difíceis de confiar em proteínas novas.

Uma nova forma de ler sequências de proteínas
JanusDDG enfrenta esse desafio partindo de modelos de linguagem para proteínas, uma classe de grandes redes neurais treinadas em milhões de sequências de proteínas, de modo semelhante a como modelos de linguagem aprendem com texto. Esses modelos convertem cada aminoácido em uma representação numérica rica que captura padrões da evolução e comportamentos típicos de dobra. JanusDDG pega a sequência da proteína original e a sequência de sua variante mutante, compara suas representações aprendidas e usa um mecanismo de atenção especializado que foca em como a mutação perturba o contexto ao redor. Como precisa apenas das sequências, JanusDDG pode ser aplicado a proteínas cujas estruturas 3D são desconhecidas ou difíceis de determinar.
Incorporando física à inteligência artificial
Uma inovação chave do JanusDDG é que ele foi projetado para respeitar princípios físicos fundamentais. Os autores se concentram em duas propriedades da energia livre de Gibbs, a grandeza que fundamenta a estabilidade de proteínas. Primeiro, a antissimetria significa que se ir de uma variante para outra altera a estabilidade por uma certa quantidade, a mudança reversa deve desfazer esse efeito. Segundo, a transitividade significa que o efeito total de ir da primeira variante para a segunda e depois para a terceira deve ser igual ao pulo direto da primeira para a terceira. A arquitetura do JanusDDG impõe a antissimetria ao executar duas cópias espelhadas da rede com entradas trocadas e combinar suas saídas de modo que previsões para frente e para trás sejam exatamente opostas. A transitividade é incentivada durante o treinamento adicionando um termo de perda especial que força o modelo a fazer previsões consistentes quando caminhos mutacionais são divididos em etapas.

Testando o desempenho em muitos tipos de mutações
Os pesquisadores treinaram o JanusDDG em um conjunto de dados curado de milhares de mutações com mudanças de estabilidade medidas e depois testaram-no em vários benchmarks independentes onde a sobreposição de sequência com os dados de treinamento foi mantida muito baixa. Esse desenho cuidadoso reduz o risco de que o modelo esteja apenas memorizando proteínas familiares. Em três coleções amplamente usadas de mutações simples, o JanusDDG igualou ou superou tanto outras ferramentas baseadas em sequência quanto muitos métodos que dependem de estruturas 3D. Ele também lidou com mutações múltiplas simultâneas, um cenário mais difícil em que interações entre alterações podem ser não aditivas. Notavelmente, sua precisão não caiu para pares de mutações que estão próximos no espaço, onde modelos anteriores frequentemente apresentam dificuldades.
De números a rótulos úteis de estabilidade
Em aplicações práticas, os pesquisadores frequentemente querem saber não apenas o tamanho de uma mudança de estabilidade, mas se uma mutação é claramente estabilizante ou desestabilizante. Os autores testaram o JanusDDG em um conjunto de dados focado em distinguir variantes estabilizantes de desestabilizantes. Embora o modelo tenha alcançado desempenho sólido, essa tarefa permaneceu mais difícil do que prever valores numéricos brutos, especialmente próximo à fronteira entre categorias, onde o ruído experimental e a ambiguidade biológica são maiores. Ainda assim, o JanusDDG se comparou favoravelmente a outros métodos de ponta, sugerindo que seu desenho atento à física e o uso de embeddings de sequência ricos o ajudam a navegar essa incerteza melhor que muitos concorrentes.
O que isso significa para o futuro do design de proteínas
No geral, o JanusDDG mostra que é possível combinar as forças da IA moderna baseada em sequência com as restrições firmes da lei física. Ao tratar proteínas como sequências que podem ser lidas como linguagem, mas insistindo que as previsões obedeçam à antissimetria e à transitividade, o modelo produz estimativas de estabilidade que são ao mesmo tempo precisas e termodinamicamente consistentes. Para não especialistas, a conclusão é que estamos nos aproximando de ferramentas confiáveis e sem necessidade de estrutura que podem vasculhar inúmeras mutações possíveis, destacando aquelas com maior probabilidade de estabilizar uma proteína ou sinalizando mudanças arriscadas associadas a doenças, tudo isso mantendo-se fundamentado nas regras da física em vez de meros atalhos estatísticos.
Citação: Barducci, G., Rossi, I., Codicé, F. et al. JanusDDG: a physics-informed neural network for sequence-based protein stability via two-fronts attention. Commun Biol 9, 494 (2026). https://doi.org/10.1038/s42003-026-09632-9
Palavras-chave: estabilidade de proteínas, mutações genéticas, projeto de proteínas, aprendizado de máquina, termodinâmica