Clear Sky Science · it
Dalle sequenze singole alle traiettorie evolutive: i modelli linguistici per proteine catturano il potenziale evolutivo di SARS-CoV-2
Perché questo è importante per le pandemie future
Per gran parte della pandemia di COVID‑19, gli scienziati sono stati costretti a rincorrere: nuove varianti comparivano nel mondo reale prima che i laboratori potessero misurare che cosa quei cambiamenti significassero per trasmissibilità o fuga immunitaria. Questo studio mostra che potenti modelli informatici, originariamente ideati per comprendere il linguaggio umano, possono invece «leggere» il linguaggio delle proteine e inferire come la proteina spike del coronavirus sia probabile che cambi e si adatti — usando soltanto la sua sequenza di mattoni costitutivi. Questa capacità potrebbe aiutare i ricercatori a segnalare varianti preoccupanti in anticipo e potrebbe generalizzarsi a molti altri patogeni.
Insegnare ai computer a leggere le proteine
Gli autori lavorano con un modello linguistico per proteine chiamato ESM‑2, addestrato su decine di milioni di sequenze proteiche provenienti dall’intero albero della vita. Come un modello linguistico impara grammatica e significato dalle parole, ESM‑2 apprende quali pattern di amminoacidi «hanno senso» nelle proteine reali. Quando gli viene fornita la sequenza della proteina spike di SARS‑CoV‑2, il modello assegna a ciascuna possibile mutazione due punteggi chiave: un punteggio di grammaticalità che riflette quanto una sequenza modificata si adatti alle regole apprese della struttura proteica, e un punteggio semantico che valuta quanto la proteina complessivamente cambia nella rappresentazione interna del modello. Questi punteggi possono essere calcolati per ogni possibile singola mutazione su un computer, una strategia nota come deep mutational scanning in silico. 
Mappare dove il virus può e non può cambiare
Scansionando tutte le sostituzioni singole lungo la spike, il team ha scoperto che ESM‑2 ricostruisce naturalmente le principali caratteristiche architettoniche della proteina. La porzione S2, che forma il fusto stabile che promuove la fusione con la membrana, è prevista come altamente vincolata: la maggior parte delle mutazioni lì riduce nettamente la grammaticalità, implicando che danneggerebbero la struttura o la funzione proteica. In contrasto, le regioni sulla superficie esterna della porzione S1, inclusi il dominio N-terminale e il dominio di legame al recettore, tollerano molte più modifiche. Questo corrisponde a quanto osservato nei genomi virali reali, dove queste regioni esposte accumulano mutazioni che aiutano il virus ad agganciarsi alle cellule e a sfuggire agli anticorpi, mentre il nucleo strutturale resta più conservato.
Scoprire il lavoro di squadra nascosto tra le mutazioni
Le proteine non sono soltanto un insieme di siti indipendenti; una mutazione può modificare quanto siano accettabili altre mutazioni, un fenomeno chiamato epistasi. I ricercatori hanno esplorato questo partendo dalla spike di Omicron BA.1 e «restituendo» computazionalmente le sue mutazioni caratterizzanti una alla volta alla sequenza originale di Wuhan. Ogni revertimento altera le probabilità del modello per gli amminoacidi in ogni altra posizione. Grandi scostamenti rivelano coppie di siti i cui destini sono collegati. Con questo approccio, lo studio mette in evidenza hotspot noti, come le posizioni attorno a 484 e 501 nel dominio di legame al recettore, che congiuntamente influenzano sia la fuga immunitaria sia il legame al recettore ACE2. Indica anche cluster meno ovvi di residui le cui interazioni sono state poi confermate in studi sperimentali sulla crescita potenziata di Omicron nelle cellule nasali umane, suggerendo che il modello cattura accoppiamenti strutturali e funzionali genuini. 
Seguire l’evoluzione virale e individuare gli outlier
Oltre alle singole mutazioni, gli autori si chiedono se ESM‑2 possa interpretare intere sequenze di varianti così come sono emerse nel tempo. Inseriscono una sequenza di spike per ogni linea SARS‑CoV‑2 nominata e le collocano in una mappa bidimensionale usando un approccio chiamato evo‑velocity, che inferisce anche una direzione dominante del cambiamento. Il layout risultante rispecchia l’albero filogenetico noto: le linee precoci si raggruppano insieme, quindi rami corrispondenti ad Alpha, Delta, Omicron e linee ricombinanti si staccano nell’ordine temporale corretto. Statistiche riassuntive semplici, come la grammaticalità media e la distanza semantica, separano nettamente le linee non‑varianti, le prime varianti preoccupanti e i virus di classe Omicron, mostrando che la rappresentazione interna del modello segue spostamenti evolutivi significativi.
Trasformare gli embedding in un sistema di allerta precoce
Per esplorare la sorveglianza pratica, il team introduce un punteggio semantico dinamico: ogni nuova sequenza di spike viene confrontata non solo con il ceppo originale di Wuhan ma con la media dei virus circolanti nei tre mesi precedenti. Applicato a dati di sequenziamento densi dal Regno Unito, questo punteggio mobile produce onde distinte mentre Alpha, Delta e le successive sotto‑linee di Omicron emergono e decadono. Le sequenze che si discostano di una o due deviazioni standard dalla media corrente vengono segnalate come potenziali sequenze di interesse. Usando soltanto questi outlier precoci, il metodo avrebbe evidenziato la maggior parte delle varianti di preoccupazione riconosciute dall’Organizzazione Mondiale della Sanità e diversi importanti rami successivi come JN.1, rivelando al contempo quali siti specifici nella proteina spike vengono ripetutamente alterati nelle linee emergenti.
Cosa significa per le minacce future
Nel complesso, lo studio dimostra che un modello linguistico per proteine di uso generale, impiegato così com’è, può identificare quali parti della proteina spike di SARS‑CoV‑2 sono flessibili, quali siti sono strutturalmente critici, come le mutazioni agiscono in modo combinato e come la spike del virus si è spostata nello spazio evolutivo nel corso della pandemia. Poiché il metodo lavora a partire da una singola sequenza proteica e non si basa su allineamenti preesistenti o dati strutturali dettagliati, potrebbe essere applicato molto precocemente in un focolaio, quando sono note solo poche genomi. Man mano che modelli simili vengono raffinati e adattati a dataset virali, potrebbero diventare una parte importante della cassetta degli attrezzi per prevedere come nuovi patogeni evolveranno e per prioritizzare varianti per studi di laboratorio e progettazione vaccinale.
Citazione: Lamb, K.D., Hughes, J., Lytras, S. et al. From single-sequences to evolutionary trajectories: protein language models capture the evolutionary potential of SARS-CoV-2. Nat Commun 17, 2938 (2026). https://doi.org/10.1038/s41467-026-69569-9
Parole chiave: modelli linguistici per proteine, spike di SARS-CoV-2, evoluzione virale, epistasi, sorveglianza delle varianti