Clear Sky Science · it
Decifrare i pattern delle tasche DEL tramite apprendimento contrastivo
Perché osservare le "tasche" delle proteine può accelerare lo sviluppo di nuovi farmaci
Gli esploratori del farmaco moderni possono ora testare trilioni di piccole molecole contemporaneamente usando librerie codificate con DNA, o DEL. Tuttavia, solo una manciata di queste molecole derivate da DEL è diventata farmaci reali. Un grande elemento mancante è sapere quali proteine nel corpo posseggono effettivamente il giusto tipo di nicchie—"tasche"—in cui le molecole DEL possono ancorarsi. Questo studio affronta quella lacuna mappando l'aspetto delle tasche DEL di successo e costruendo un modello di intelligenza artificiale, chiamato ErePOC, per trovare tasche simili in tutto il proteoma umano.
Come la tecnologia DEL cerca nuove molecole terapeutiche
Le DEL funzionano un po' come esche da pesca con codice a barre. I chimici legano piccole molecole candidate a brevi frammenti di DNA che fungono da tag identificativi, quindi espongono ampie miscele di queste molecole marcate a una proteina di interesse. Le molecole che si attaccano vengono lette tramite sequenziamento del DNA. Questo approccio è veloce e poco costoso, ma trasformare i hit DEL in veri farmaci è ancora difficile. Una ragione è che le molecole DEL condividono certi vincoli chimici, come il modo in cui vengono sintetizzate in acqua e come è attaccato il tag di DNA. Questi vincoli le portano a preferire determinati tipi di tasche proteiche, ma fino ad ora tali preferenze non erano state mappate in modo sistematico.

Cosa rende una tasca attraente per le molecole DEL
Gli autori hanno prima confrontato migliaia di tasche proteiche che legano diversi tipi di ligandi: piccole molecole biologiche ordinarie, farmaci approvati dalla FDA e hit DEL. Hanno scoperto che le tasche che legano DEL e farmaci tendono a essere più grandi e chimicamente più complesse rispetto alle tasche per ligandi naturali. In particolare, le tasche DEL sono più aperte e idrofobiche—cioè favoriscono interazioni oleose che respingono l'acqua—pur mantenendo un piccolo ma importante insieme di punti di contatto polari che affinano il legame. Alcuni amminoacidi voluminosi che forniscono superfici aromatiche e idrofobiche, come tirosina e fenilalanina, compaiono più spesso nelle tasche che legano DEL e farmaci rispetto alle superfici proteiche tipiche. Nel complesso, le tasche DEL assomigliano più alle classiche tasche target di farmaci che ai siti metabolici ordinari, ma con un'ulteriore propensione verso cavità grandi e idrofobiche.
Insegnare a un modello di IA a riconoscere le "personalità" delle tasche
Per andare oltre semplici conteggi di dimensioni e chimica, il gruppo ha costruito ErePOC, un modello di rappresentazione che tratta ogni tasca di legame come una sorta di impronta digitale. Parte da embedding di modelli linguistici per proteine, che catturano pattern appresi da milioni di sequenze, e comprime l'informazione sui residui che formano una tasca in un vettore numerico compatto. Usando l'apprendimento contrastivo, ErePOC viene addestrato in modo che le tasche che legano ligandi chimicamente simili finiscano vicine in questo spazio astratto, mentre quelle che legano molecole molto diverse si allontanino. Quando gli autori hanno visualizzato questo spazio, le tasche note per legare gli stessi cofattori, come ATP o eme, hanno formato cluster ben separati, dimostrando che il modello aveva imparato a raggruppare le tasche per comportamento funzionale piuttosto che solo per la forma globale della proteina.
Trovare target compatibili con DEL nel proteoma umano
Con ErePOC addestrato, i ricercatori hanno proiettato nello stesso paesaggio note tasche DEL, tasche di farmaci e centinaia di migliaia di tasche ricavate da strutture proteiche sperimentali e predette. Le tasche DEL si sono diffuse ampiamente, indicando che lo screening DEL può in principio raggiungere gran parte dello spazio tradizionalmente "druggable", ma mostrano comunque preferenze chiare per certe regioni associate a tasche più grandi e idrofobiche. Il team ha quindi scandagliato oltre 23.000 proteine umane predette da AlphaFold, filtrando per tasche ben definite e chiedendosi quali assomigliassero di più a tasche DEL note nello spazio ErePOC. Hanno identificato quasi 2.800 proteine umane con tasche altamente simili a siti DEL di successo, con un forte arricchimento in famiglie come transferasi, idrolasi, ossidoreduttasi, regolatori della cromatina e alcuni proteine leganti RNA. Un successivo docking computazionale con una grande DEL virtuale ha suggerito che queste tasche segnalate da ErePOC tendono effettivamente a legare molecole simili alle DEL in modo più favorevole.

Perché questo è importante per la scoperta di farmaci futura
Per i non specialisti, la conclusione principale è che il successo delle librerie chimiche ultra-grandi dipende tanto dalla scelta delle tasche proteiche giuste quanto dalle molecole stesse. Questo lavoro mostra che gli hit DEL tendono a provenire da tasche grandi, flessibili e idrofobiche, e introduce un potente strumento di IA per riconoscere tali tasche a partire dalla sequenza o dalla struttura. Usando ErePOC per concentrare lo screening DEL su proteine le cui tasche appaiono già compatibili con le DEL, gli scopritori di farmaci possono dare priorità a target più promettenti, ridurre sforzi di screening inutili e potenzialmente espandersi in classi meno esplorate come i regolatori della cromatina e le proteine leganti RNA. In breve, lo studio offre sia un quadro più chiaro di come è fatta una tasca "pronta per DEL" sia una mappa pratica per trovarne molte altre nel proteoma umano.
Citazione: Zhang, W., Wang, Y., Zhan, R. et al. Deciphering DEL pocket patterns through contrastive learning. Nat Commun 17, 2810 (2026). https://doi.org/10.1038/s41467-026-69663-y
Parole chiave: Librerie codificate con DNA, tasche di legame proteico, apprendimento contrastivo, IA per la scoperta di farmaci, ErePOC