Clear Sky Science · fr

MAMMAL - Architecture moléculaire multi‑modale alignée et langage pour la découverte biomédicale

· Retour à l’index

Pourquoi une découverte de médicaments plus intelligente est importante

Découvrir de nouveaux médicaments est long, risqué et extrêmement coûteux. La plupart des candidats-médicaments échouent encore en essais cliniques, souvent après des années de travail. Parallèlement, les laboratoires de biologie génèrent désormais d’immenses quantités de données sur les gènes, les protéines, les cellules et les composés chimiques. Cet article présente MAMMAL, un nouveau type de système d’intelligence artificielle qui apprend simultanément à partir de tous ces types de données. En reliant les motifs entre molécules, cellules et médicaments, il vise à aider les chercheurs à choisir de meilleurs cibles, concevoir de meilleurs médicaments et éviter plus tôt des impasses coûteuses.

Figure 1
Figure 1.

Un même « cerveau » pour de nombreux types de données biologiques

Les outils d’IA actuels en biomédecine sont souvent des spécialistes : un modèle gère les séquences protéiques, un autre les petites molécules, et un autre encore ne traite que l’activité génique. MAMMAL emprunte une voie différente. Il considère les protéines, les anticorps, les médicaments de petite taille et les profils d’expression génique comme différents types de « phrases » que le même modèle peut lire. Pour cela, les chercheurs ont construit une méthode flexible pour convertir chaque type de données en un format de séquence partagé, et ont entraîné un large réseau de type transformeur — comparable dans l’esprit aux modèles de langage modernes — sur environ deux milliards d’exemples provenant de jeux de données publics protéiques, d’anticorps, chimiques et au niveau cellulaire.

Apprendre le langage des médicaments et des cellules

MAMMAL est conçu pour comprendre et générer de l’information biologique. Il peut classer, hiérarchiser ou prédire des valeurs numériques comme la force de liaison ou la puissance d’un médicament, et il peut aussi inventer de nouvelles séquences, par exemple en suggérant des fragments d’anticorps inédits. Une caractéristique clé est qu’il ne se contente pas de voir des symboles ; il peut aussi intégrer et produire directement des valeurs numériques, comme des mesures issues d’essais de laboratoire. Cela l’aide à raisonner sur la force de liaison d’un médicament à une protéine ou sur la réponse d’une cellule cancéreuse à un traitement. Toutes ces tâches sont présentées comme des variations d’une activité centrale : transformer une séquence en une autre, un peu comme traduire entre langues.

Figure 2
Figure 2.

Tester le modèle sur l’ensemble de la chaîne de découverte

Pour vérifier si cette approche unifiée est réellement utile, les auteurs ont testé des versions fine‑tuned de MAMMAL sur onze benchmarks différents qui reproduisent des étapes réelles de la découverte de médicaments. Cela incluait la reconnaissance de types cellulaires à partir de données d’expression génique unicellulaire, la prédiction de la capacité des petites molécules à traverser la barrière hémato‑encéphalique ou à provoquer des effets toxiques, l’estimation de la réponse des cellules cancéreuses à divers médicaments, et la prévision de la force de liaison entre protéines ou entre protéines et petites molécules. MAMMAL a atteint ou dépassé les meilleures performances rapportées dans neuf des onze tests, surpassant souvent des modèles très spécialisés optimisés pour un seul type de données.

Conception d’anticorps et surpasser les modèles de structure sur leur propre terrain

Certains des résultats les plus marquants proviennent de tâches basées sur les protéines. Dans un défi d’« infilling » d’anticorps — où l’objectif est de combler les segments les plus variables qui contactent réellement une cible — MAMMAL a retrouvé les acides aminés corrects beaucoup plus souvent que les méthodes antérieures, notamment dans la région centrale notoirement difficile du site de liaison de l’anticorps. L’équipe a également testé si MAMMAL pouvait distinguer les anticorps liants des non‑liants et l’a comparé à AlphaFold 3, un outil de prédiction de structure dont les scores de confiance peuvent être utilisés comme estimation indirecte de liaison. Pour cinq des sept cibles testées, y compris de grandes protéines flexibles pertinentes en cancérologie, les prédictions de liaison de MAMMAL étaient clairement plus précises, même s’il n’a vu que des séquences et pas de structures 3D.

Indices d’un impact dans le monde réel

Au‑delà des benchmarks, les chercheurs ont vérifié si les prédictions du modèle concordaient avec la réalité en laboratoire. Ils ont examiné quatre médicaments anticancéreux, dont le Carfilzomib, approuvé principalement pour les cancers du sang. MAMMAL a correctement prédit la force relative de ces médicaments sur des centaines de lignées cellulaires, et ce classement a été confirmé par des expériences ciblées. Cette observation suggère que le médicament pourrait avoir un usage plus large dans les tumeurs solides qu’on ne le pense actuellement, possibilité qui mérite désormais des études supplémentaires. Le modèle a aussi montré son potentiel dans des collaborations visant à prédire l’activité d’anticorps contre des virus grippaux et d’autres cibles.

Ce que cela signifie pour les médicaments de demain

Concrètement, MAMMAL agit comme un lecteur et un rédacteur multilingue pour la biologie, capable de relier ce qui se passe au niveau des gènes, des protéines et des composés chimiques au sein d’un même cadre. Ses bonnes performances sur de nombreuses tâches suggèrent que de tels modèles unifiés peuvent devenir des composants centraux de « cellules virtuelles » assistées par IA qui aident les chercheurs à explorer des traitements in silico avant d’entrer en laboratoire. S’il ne remplace pas les expériences — et nécessite encore une validation rigoureuse — il peut réduire l’espace de recherche, mettre en évidence des possibilités surprenantes et raccourcir un peu le long chemin de l’idée au médicament approuvé.

Citation: Shoshan, Y., Raboh, M., Ozery-Flato, M. et al. MAMMAL - Molecular Aligned Multi-Modal Architecture and Language for biomedical discovery. npj Drug Discov. 3, 14 (2026). https://doi.org/10.1038/s44386-026-00047-4

Mots-clés: découverte de médicaments pilotée par l’IA, modèles biomédicaux multimodaux, conception d’anticorps, interactions protéine–médicament, profilage de l’expression génique