Clear Sky Science · it

JanusDDG: una rete neurale informata dalla fisica per la stabilità proteica basata sulla sequenza tramite attenzione a due fronti

· Torna all'indice

Perché questa ricerca è importante

Le proteine sono le piccole macchine che mantengono vive le nostre cellule, e anche una singola modifica nei loro mattoni può farle funzionare meglio, peggio o non funzionare affatto. Poter prevedere come tali cambiamenti influenzino la stabilità di una proteina è cruciale per comprendere le malattie genetiche e per progettare farmaci e enzimi industriali migliori. Questo articolo presenta JanusDDG, un nuovo modello di intelligenza artificiale che prevede come le mutazioni alterano la stabilità delle proteine utilizzando solo la sequenza proteica, rispettando al contempo le regole fisiche fondamentali che governano il ripiegamento proteico.

Il problema delle macchine proteiche fragili

Quando una proteina si ripiega nella sua forma tridimensionale, bilancia molte forze, come una tenda sostenuta da numerose corde. Le mutazioni possono tendere alcune corde o allentarne altre, rendendo la struttura più o meno stabile. I test sperimentali di questi effetti sono lenti e costosi, quindi i ricercatori fanno ampio affidamento su modelli computazionali per stimare i cambiamenti di stabilità, noti come ΔΔG. Gli strumenti esistenti funzionano spesso meglio quando hanno accesso a strutture 3D dettagliate e possono violare silenziosamente le regole della termodinamica, producendo previsioni che appaiono accurate sulla carta ma sono fisicamente incoerenti o difficili da fidarsi per proteine nuove.

Figure 1
Figura 1.

Un nuovo modo di leggere le sequenze proteiche

JanusDDG affronta questa sfida partendo dai modelli linguistici per proteine, una classe di grandi reti neurali addestrate su milioni di sequenze proteiche, in modo analogo a come i modelli linguistici apprendono dal testo. Questi modelli convertono ogni amminoacido in una ricca rappresentazione numerica che cattura schemi dall’evoluzione e comportamenti tipici di ripiegamento. JanusDDG prende la sequenza della proteina originale e quella del mutante, confronta le loro rappresentazioni apprese e utilizza un meccanismo di attenzione specializzato che si concentra su come la mutazione perturba il contesto circostante. Poiché richiede solo le sequenze, JanusDDG può essere applicato a proteine le cui strutture 3D sono sconosciute o difficili da determinare.

Incorporare la fisica nell’intelligenza artificiale

Un’innovazione chiave di JanusDDG è che è progettato per rispettare principi fisici fondamentali. Gli autori si concentrano su due proprietà dell’energia libera di Gibbs, la grandezza che sta alla base della stabilità proteica. Innanzitutto, l’antisimmetria significa che se il passaggio da una variante a un’altra cambia la stabilità di una certa quantità, il passaggio inverso deve annullare tale effetto. In secondo luogo, la transitività significa che l’effetto totale di andare dalla prima variante alla seconda e poi alla terza deve essere uguale al salto diretto dalla prima alla terza. L’architettura di JanusDDG impone l’antisimmetria eseguendo due copie speculari della rete su input scambiati e combinando i loro output in modo che le predizioni avanti e indietro siano esattamente opposte. La transitività viene favorita durante l’addestramento aggiungendo un termine di perdita speciale che spinge il modello a produrre predizioni coerenti quando i percorsi mutazionali sono suddivisi in tappe.

Figure 2
Figura 2.

Valutare le prestazioni su molti tipi di mutazioni

I ricercatori hanno addestrato JanusDDG su un set di dati curato di migliaia di mutazioni con cambiamenti di stabilità misurati e poi lo hanno testato su diversi benchmark indipendenti in cui la sovrapposizione di sequenze con i dati di addestramento è stata mantenuta molto bassa. Questo disegno accurato riduce il rischio che il modello stia semplicemente memorizzando proteine familiari. Su tre raccolte ampiamente usate di mutazioni singole, JanusDDG ha eguagliato o superato sia altri strumenti basati sulla sequenza sia molti metodi che si basano su strutture 3D. Ha inoltre gestito mutazioni multiple simultanee, uno scenario più difficile dove le interazioni tra cambiamenti possono essere non additive. Sorprendentemente, la sua accuratezza non è diminuita per coppie di mutazioni vicine nello spazio, dove i modelli precedenti spesso faticavano.

Dai numeri a etichette di stabilità utili

Nelle applicazioni pratiche, i ricercatori spesso vogliono sapere non solo quanto grande sia un cambiamento di stabilità, ma se una mutazione sia chiaramente stabilizzante o destabilizzante. Gli autori hanno testato JanusDDG su un dataset focalizzato sulla distinzione tra varianti stabilizzanti e destabilizzanti. Pur raggiungendo prestazioni solide, questo compito è rimasto più difficile rispetto alla previsione dei valori numerici grezzi, soprattutto vicino al confine tra le categorie, dove il rumore sperimentale e l’ambiguità biologica sono maggiori. Tuttavia, JanusDDG si è confrontato favorevolmente con altri metodi di punta, suggerendo che il suo design attento alla fisica e l’uso di ricchi embedding di sequenza lo aiutano a gestire questa incertezza meglio di molti concorrenti.

Cosa significa per la progettazione futura delle proteine

Nel complesso, JanusDDG dimostra che è possibile combinare i punti di forza dell’IA moderna basata sulla sequenza con i vincoli solidi della legge fisica. Trattando le proteine come sequenze che possono essere lette come un linguaggio, ma insistendo affinché le predizioni rispettino antisimmetria e transitività, il modello produce stime di stabilità che sono accurate e coerenti dal punto di vista termodinamico. Per i non specialisti, il messaggio è che ci stiamo avvicinando a strumenti affidabili e indipendenti dalla struttura che possono scandagliare innumerevoli mutazioni possibili, evidenziando quelle più probabili a stabilizzare una proteina o segnalando cambiamenti rischiosi legati a malattie, il tutto restando ancorati alle regole della fisica invece che a semplici scorciatoie statistiche.

Citazione: Barducci, G., Rossi, I., Codicé, F. et al. JanusDDG: a physics-informed neural network for sequence-based protein stability via two-fronts attention. Commun Biol 9, 494 (2026). https://doi.org/10.1038/s42003-026-09632-9

Parole chiave: stabilità delle proteine, mutazioni genetiche, progettazione delle proteine, apprendimento automatico, termodinamica