Clear Sky Science · fr

JanusDDG : un réseau de neurones informé par la physique pour prédire la stabilité des protéines à partir de la séquence via une attention à deux fronts

· Retour à l’index

Pourquoi cette recherche est importante

Les protéines sont les petites machines qui maintiennent nos cellules en vie, et un seul changement dans leurs éléments constitutifs peut les rendre plus efficaces, moins performantes ou complètement non fonctionnelles. Pouvoir prédire comment de telles modifications affectent la stabilité d’une protéine est essentiel pour comprendre les maladies génétiques et pour concevoir de meilleurs médicaments et enzymes industriels. Cet article présente JanusDDG, un nouveau modèle d’intelligence artificielle qui prédit l’impact des mutations sur la stabilité des protéines en n’utilisant que la séquence protéique, tout en respectant les règles physiques fondamentales qui gouvernent le repliement des protéines.

Le problème des machines protéiques fragiles

Lorsque une protéine se replie en sa forme tridimensionnelle, elle équilibre de nombreuses forces, un peu comme une tente soutenue par de multiples cordages. Les mutations peuvent tendre certains cordages ou en desserrer d’autres, rendant la structure plus ou moins stable. Les tests expérimentaux de ces effets sont lents et coûteux, si bien que les chercheurs s’appuient largement sur des modèles informatiques pour estimer les variations de stabilité, connues sous le nom de ΔΔG. Les outils existants donnent souvent leur meilleur rendement lorsqu’ils disposent de structures 3D détaillées, et ils peuvent parfois enfreindre silencieusement les lois de la thermodynamique, produisant des prédictions qui semblent exactes sur le papier mais sont physiquement inconsistantes ou difficiles à généraliser à de nouvelles protéines.

Figure 1
Figure 1.

Une nouvelle façon de lire les séquences protéiques

JanusDDG relève ce défi en partant des modèles de langage pour protéines, une classe de grands réseaux neuronaux entraînés sur des millions de séquences protéiques, de façon analogue à l’apprentissage des modèles de langage sur des textes. Ces modèles transforment chaque acide aminé en une riche représentation numérique qui capture des motifs issus de l’évolution et des comportements de repliement typiques. JanusDDG prend la séquence de la protéine d’origine et celle de son mutant, compare leurs représentations apprises, et utilise un mécanisme d’attention spécialisé qui se concentre sur la manière dont la mutation perturbe le contexte environnant. Parce qu’il n’a besoin que des séquences, JanusDDG peut être appliqué à des protéines dont la structure 3D est inconnue ou difficile à déterminer.

Intégrer la physique dans l’intelligence artificielle

Une innovation clé de JanusDDG est sa conception pour respecter des principes physiques fondamentaux. Les auteurs se focalisent sur deux propriétés de l’énergie libre de Gibbs, la grandeur qui sous-tend la stabilité des protéines. D’abord, l’antisymétrie signifie que si le passage d’une variante à une autre modifie la stabilité d’une certaine quantité, le passage inverse doit annuler cet effet. Ensuite, la transitivité signifie que l’effet total du passage d’une première variante à une seconde, puis à une troisième, doit être égal au saut direct de la première à la troisième. L’architecture de JanusDDG impose l’antisymétrie en exécutant deux copies en miroir du réseau sur des entrées permutées et en combinant leurs sorties de sorte que les prédictions avant et arrière soient des opposés exacts. La transitivité est encouragée pendant l’entraînement par l’ajout d’un terme de perte spécial qui pousse le modèle à produire des prédictions cohérentes lorsque des parcours mutuels sont découplés en étapes.

Figure 2
Figure 2.

Évaluer les performances sur de nombreux types de mutations

Les chercheurs ont entraîné JanusDDG sur un jeu de données soigné de plusieurs milliers de mutations avec des variations de stabilité mesurées, puis l’ont testé sur plusieurs bancs d’essai indépendants où le recoupement de séquences avec les données d’entraînement était maintenu très faible. Cette conception rigoureuse réduit le risque que le modèle se contente de mémoriser des protéines familières. Sur trois collections largement utilisées de mutations simples, JanusDDG a égalé ou dépassé à la fois d’autres outils basés sur la séquence et de nombreuses méthodes qui s’appuient sur des structures 3D. Il a également géré des mutations multiples simultanées, un scénario plus difficile où les interactions entre changements peuvent être non additives. Fait remarquable, son exactitude ne diminuait pas pour des paires de mutations proches dans l’espace, situation où de précédents modèles peinent souvent.

Des nombres à des étiquettes de stabilité utiles

En pratique, les chercheurs souhaitent souvent savoir non seulement l’ampleur d’un changement de stabilité, mais aussi si une mutation est clairement stabilisante ou déstabilisante. Les auteurs ont testé JanusDDG sur un jeu de données axé sur la distinction entre variantes stabilisantes et déstabilisantes. Si le modèle a atteint de bonnes performances, cette tâche reste plus difficile que la prédiction de valeurs numériques brutes, en particulier près de la frontière entre catégories où le bruit expérimental et l’ambiguïté biologique sont les plus importants. Néanmoins, JanusDDG s’est montré favorablement comparable aux meilleures méthodes, ce qui suggère que sa conception consciente des lois physiques et l’usage de riches embeddings de séquence l’aident à mieux naviguer cette incertitude que de nombreux concurrents.

Quelles implications pour la conception de protéines à l’avenir

Globalement, JanusDDG montre qu’il est possible de combiner les forces de l’IA moderne basée sur la séquence avec les contraintes solides de la loi physique. En traitant les protéines comme des séquences lisibles comme un langage, tout en exigeant que les prédictions respectent l’antisymétrie et la transitivité, le modèle produit des estimations de stabilité à la fois précises et cohérentes thermodynamiquement. Pour les non-spécialistes, la conclusion est que nous nous rapprochons d’outils fiables, indépendants de la structure, capables d’explorer d’innombrables mutations possibles, de mettre en lumière celles qui sont les plus susceptibles de stabiliser une protéine ou de signaler des changements risqués liés à des maladies, tout en restant ancrés dans les règles de la physique plutôt que dans de simples raccourcis statistiques.

Citation: Barducci, G., Rossi, I., Codicé, F. et al. JanusDDG: a physics-informed neural network for sequence-based protein stability via two-fronts attention. Commun Biol 9, 494 (2026). https://doi.org/10.1038/s42003-026-09632-9

Mots-clés: stabilité des protéines, mutations génétiques, conception de protéines, apprentissage automatique, thermodynamique