Clear Sky Science · fr
Des séquences isolées aux trajectoires évolutives : les modèles de langage protéique captent le potentiel évolutif du SARS‑CoV‑2
Pourquoi cela importe pour les pandémies à venir
La majeure partie de la pandémie de COVID‑19 a vu les scientifiques courir après le virus : de nouveaux variants apparaissaient dans le monde réel avant que les laboratoires n’aient pu mesurer leur impact sur la transmissibilité ou l’évasion immunitaire. Cette étude montre que des modèles informatiques puissants, initialement conçus pour comprendre le langage humain, peuvent lire la « langue » des protéines et inférer comment la protéine spike du coronavirus est susceptible d’évoluer et de s’adapter — en n’utilisant que sa séquence de blocs de construction. Cette capacité pourrait aider les chercheurs à repérer plus tôt des variants préoccupants et pourrait se généraliser à de nombreux autres agents pathogènes.
Apprendre aux ordinateurs à lire les protéines
Les auteurs travaillent avec un modèle de langage protéique appelé ESM‑2, entraîné sur des dizaines de millions de séquences protéiques provenant de l’ensemble du vivant. À l’image d’un modèle de langage qui apprend la grammaire et le sens des mots, ESM‑2 apprend quelles combinaisons d’acides aminés « ont du sens » dans les protéines réelles. Lorsqu’on lui fournit la séquence de la protéine spike du SARS‑CoV‑2, le modèle attribue à chaque mutation possible deux scores clés : un score de grammaticalité qui reflète dans quelle mesure une séquence modifiée respecte les règles apprises de la structure protéique, et un score sémantique qui évalue combien la protéine change globalement dans la représentation interne du modèle. Ces scores peuvent être calculés pour chaque mutation simple sur un ordinateur, une stratégie connue sous le nom de balayage profond de mutations in silico. 
Cartographier où le virus peut ou ne peut pas changer
En examinant toutes les mutations d’un seul résidu le long de la spike, l’équipe a constaté qu’ESM‑2 retrouve naturellement les principales caractéristiques architecturales de la protéine. La portion S2, qui forme la tige stable qui conduit à la fusion membranaire, est prédite comme fortement contrainte : la plupart des mutations y réduisent fortement la grammaticalité, ce qui implique qu’elles endommageraient la structure ou la fonction de la protéine. En revanche, les régions de la surface externe de la portion S1, y compris le domaine N‑terminal et le domaine de liaison au récepteur, tolèrent beaucoup plus de changements. Cela concorde avec ce qu’on observe dans les génomes viraux réels, où ces régions exposées accumulent des mutations qui aident le virus à se fixer aux cellules et à échapper aux anticorps tandis que le noyau structurel reste plus conservé.
Mettre au jour le travail d’équipe caché entre mutations
Les protéines ne sont pas simplement un ensemble de sites indépendants ; une mutation peut modifier l’acceptabilité d’autres mutations, un phénomène appelé épiastasie. Les chercheurs ont exploré cela en partant de la spike d’Omicron BA.1 et en « revenant » informatiquement sur ses mutations caractéristiques une par une vers la séquence originelle de Wuhan. Chaque réversion modifie les probabilités que le modèle attribue aux acides aminés à tous les autres positions. De grands changements révèlent des paires de sites dont les destins sont liés. Grâce à cette approche, l’étude met en évidence des points chauds connus tels que les positions autour de 484 et 501 dans le domaine de liaison au récepteur, qui façonnent ensemble à la fois l’échappement immunitaire et la liaison au récepteur ACE2. Elle signale aussi des groupes de résidus moins évidents dont les interactions ont été ensuite confirmées par des études expérimentales sur la croissance accrue d’Omicron dans les cellules nasales humaines, ce qui suggère que le modèle capture de véritables couplages structurels et fonctionnels. 
Suivre l’évolution virale et repérer les anomalies
Au‑delà des mutations isolées, les auteurs se demandent si ESM‑2 peut rendre compte de séquences complètes de variants tels qu’ils sont apparus au fil du temps. Ils incorporent une séquence de spike pour chaque lignée nommée de SARS‑CoV‑2 et les placent sur une carte bidimensionnelle à l’aide d’une approche appelée evo‑velocity, qui infère également une direction dominante du changement. La disposition obtenue reflète l’arbre phylogénétique connu : les premières lignées se regroupent, puis des branches correspondant à Alpha, Delta, Omicron et des lignées recombinantes se détachent dans le bon ordre temporel. Des statistiques sommaires simples telles que la grammaticalité moyenne et la distance sémantique séparent clairement les lignées non‑variantes, les premiers variants préoccupants et les virus de type Omicron, montrant que la représentation interne du modèle suit des changements évolutifs significatifs.
Transformer les embeddings en système d’alerte précoce
Pour explorer une application en surveillance, l’équipe introduit un score sémantique dynamique : chaque nouvelle séquence de spike est comparée non seulement à la souche originelle de Wuhan mais aussi à la moyenne des virus en circulation au cours des trois mois précédents. Appliqué à des données de séquençage denses du Royaume‑Uni, ce score mobile produit des vagues distinctes à mesure que Alpha, Delta et les sous‑lignées successives d’Omicron montent et descendent. Les séquences situées à une ou deux écarts‑type de la moyenne actuelle sont signalées comme séquences potentiellement préoccupantes. En ne considérant que ces premiers outliers, la méthode aurait mis en évidence la plupart des variants préoccupants répertoriés par l’Organisation mondiale de la Santé et plusieurs importants dérivés ultérieurs tels que JN.1, tout en révélant quels sites particuliers de la protéine spike sont répétitivement modifiés dans les lignées émergentes.
Ce que cela signifie pour les menaces futures
Dans l’ensemble, l’étude montre qu’un modèle de langage protéique à usage général, utilisé tel quel, peut identifier quelles parties de la protéine spike du SARS‑CoV‑2 sont flexibles, quels sites sont structurellement critiques, comment les mutations interagissent et comment la spike a dévié dans l’espace évolutif au cours de la pandémie. Parce que la méthode fonctionne à partir d’une seule séquence protéique et ne dépend pas d’alignements préexistants ni de données structurales détaillées, elle pourrait être appliquée très tôt lors d’une flambée, quand seulement quelques génomes sont connus. À mesure que des modèles similaires seront affinés et adaptés à des jeux de données viraux, ils pourraient devenir une composante importante de la boîte à outils pour prévoir l’évolution de nouveaux agents pathogènes et pour prioriser des variants en vue d’études en laboratoire et de la conception de vaccins.
Citation: Lamb, K.D., Hughes, J., Lytras, S. et al. From single-sequences to evolutionary trajectories: protein language models capture the evolutionary potential of SARS-CoV-2. Nat Commun 17, 2938 (2026). https://doi.org/10.1038/s41467-026-69569-9
Mots-clés: modèles de langage protéique, spike du SARS‑CoV‑2, évolution virale, épiastasie, surveillance des variants