Clear Sky Science · pt
Decifrando padrões de bolsos DEL por meio do aprendizado contrastivo
Por que olhar para os “bolsos” das proteínas pode acelerar o desenvolvimento de novos medicamentos
Caçadores de fármacos modernos agora podem testar trilhões de pequenas moléculas de uma só vez usando bibliotecas codificadas por DNA, ou DELs. Ainda assim, apenas uma pequena fração dessas moléculas originadas em DELs se tornou medicamentos reais. Uma grande peça que falta é saber quais proteínas no organismo realmente têm os tipos de reentrâncias e cavidades — “bolsos” — adequados para que moléculas de DEL se prendam. Este estudo aborda essa lacuna mapeando como são os bolsos de sucesso em DELs e construindo um modelo de inteligência artificial, chamado ErePOC, para encontrar bolsos semelhantes pelo corpo humano.
Como a tecnologia DEL busca novas moléculas candidatas
As DELs funcionam um pouco como iscas de pesca com código de barras. Químicos prendem pequenas moléculas candidatas a trechos curtos de DNA que atuam como etiquetas de identificação e expõem vastas misturas dessas moléculas marcadas a uma proteína de interesse. As moléculas que aderem são identificadas pela leitura do DNA. Essa abordagem é rápida e econômica, mas transformar hits de DEL em fármacos reais ainda é difícil. Uma razão é que as moléculas de DEL compartilham certas restrições químicas, como como são sintetizadas em água e como a etiqueta de DNA é anexada. Essas restrições fazem com que tendam a preferir tipos particulares de bolsos proteicos, mas até agora essas preferências não haviam sido mapeadas de forma sistemática.

O que torna um bolso atraente para moléculas DEL
Os autores primeiro compararam milhares de bolsos proteicos que ligam diferentes tipos de ligantes: pequenas moléculas biológicas comuns, fármacos aprovados pela FDA e hits de DEL. Eles descobriram que os bolsos de DEL e de fármacos tendem a ser maiores e mais quimicamente complexos do que os bolsos para ligantes naturais. Em particular, os bolsos de DEL são mais abertos e hidrofóbicos — o que significa que favorecem interações oleosas e repelentes à água — ao mesmo tempo em que mantêm um conjunto pequeno, porém importante, de pontos de contato polares que ajustam finamente a ligação. Certos aminoácidos volumosos que fornecem superfícies aromáticas e hidrofóbicas, como tirosina e fenilalanina, aparecem com mais frequência em bolsos que ligam DELs e fármacos do que em superfícies proteicas típicas. No geral, os bolsos de DEL se parecem mais com bolsos-alvo clássicos de fármacos do que com locais metabólicos comuns, mas com um viés adicional em direção a cavidades grandes e hidrofóbicas.
Ensinando um modelo de IA a reconhecer “personalidades” de bolsos
Para ir além de simples contagens de tamanho e propriedades químicas, a equipe construiu o ErePOC, um modelo de representação que trata cada bolso de ligação como uma espécie de impressão digital. Ele parte de embeddings de modelos de linguagem para proteínas, que capturam padrões aprendidos a partir de milhões de sequências, e comprime a informação sobre os resíduos que formam um bolso em um vetor numérico compacto. Usando aprendizado contrastivo, o ErePOC é treinado para que bolsos que ligam ligantes quimicamente semelhantes fiquem próximos nesse espaço abstrato, e aqueles que ligam moléculas muito diferentes se afastem. Quando os autores visualizaram esse espaço, bolsos conhecidos por ligar os mesmos cofatores, como ATP ou heme, formaram clusters bem separados, mostrando que o modelo aprendeu a agrupar bolsos pelo comportamento funcional em vez de apenas pela forma geral da proteína.
Encontrando alvos compatíveis com DEL pelo proteoma humano
Com o ErePOC treinado, os pesquisadores projetaram bolsos conhecidos de DEL, bolsos de fármacos e centenas de milhares de bolsos de estruturas proteicas experimentais e previstas no mesmo mapa. Os bolsos de DEL dispersaram amplamente, indicando que a triagem por DEL pode, em princípio, alcançar grande parte do espaço tradicionalmente “alvo de fármacos”, mas ainda mostraram preferências claras por certas regiões associadas a bolsos maiores e hidrofóbicos. A equipe então vasculhou mais de 23.000 proteínas humanas previstas pelo AlphaFold, filtrando por bolsos bem definidos e perguntando quais mais se assemelhavam a bolsos de DEL conhecidos no espaço do ErePOC. Identificaram quase 2.800 proteínas humanas com bolsos altamente similares a locais de sucesso em DEL, com forte enriquecimento em famílias como transferases, hidrolases, oxidorredutases, reguladores da cromatina e algumas proteínas de ligação ao RNA. Simulações de docking posteriores com uma DEL virtual ampla sugeriram que esses bolsos sinalizados pelo ErePOC realmente tendem a ligar moléculas do tipo DEL de forma mais favorável.

Por que isso importa para a descoberta de fármacos no futuro
Para não especialistas, a mensagem principal é que o sucesso de bibliotecas químicas ultra-grandes depende tanto de escolher os bolsos proteicos certos quanto das próprias moléculas. Este trabalho mostra que os hits de DEL tendem a vir de bolsos que são grandes, flexíveis e hidrofóbicos, e introduz uma ferramenta de IA poderosa para reconhecer tais bolsos a partir da sequência ou da estrutura sozinha. Ao usar o ErePOC para focalizar a triagem por DEL em proteínas cujos bolsos já parecem compatíveis com DELs, caçadores de fármacos podem priorizar alvos mais promissores, reduzir esforço de triagem desperdiçado e potencialmente expandir para classes menos exploradas, como proteínas de cromatina e de ligação ao RNA. Em resumo, o estudo oferece tanto um retrato mais claro de como é um bolso “pronto para DEL” quanto um mapa prático e uma bússola para encontrar muitos mais deles pelo proteoma humano.
Citação: Zhang, W., Wang, Y., Zhan, R. et al. Deciphering DEL pocket patterns through contrastive learning. Nat Commun 17, 2810 (2026). https://doi.org/10.1038/s41467-026-69663-y
Palavras-chave: Bibliotecas codificadas por DNA, cavidades de ligação de proteínas, aprendizado contrastivo, IA para descoberta de fármacos, ErePOC