Clear Sky Science · fr
Apprentissage profond moléculaire aux confins de l’espace chimique
Pourquoi des prédictions plus intelligentes pour les médicaments comptent
La découverte de médicaments moderne repose de plus en plus sur l’intelligence artificielle pour trier d’énormes bibliothèques de composés et repérer les candidats prometteurs. Mais il y a un problème : de nombreux modèles d’apprentissage automatique ne fonctionnent bien que sur des molécules qui ressemblent fortement à celles qu’ils ont déjà vues. Lorsqu’on leur demande d’évaluer des composés plus atypiques — ceux-là mêmes qui pourraient devenir des médicaments « first-in-class » — ces modèles peuvent devenir trop sûrs d’eux et se tromper. Cette étude propose une nouvelle façon de détecter quand un modèle est sur un terrain fragile, aidant les chercheurs à s’aventurer en toute sécurité dans des régions inexplorées de l’espace chimique.
Quand la carte s’arrête
Au début du processus de découverte de médicaments, les scientifiques recherchent des « hits » : de petites molécules qui modulent une cible biologique, comme une protéine impliquée dans une maladie. Comme il est impossible de tester en laboratoire des milliards de molécules possibles, des modèles d’apprentissage automatique sont entraînés sur quelques centaines ou milliers de composés connus puis utilisés pour prédire lesquels valent la peine d’être testés. Cependant, ces modèles ont tendance à se dégrader pour des molécules différentes de celles présentes dans leurs données d’entraînement — un problème connu sous le nom de décalage de distribution. Les garde-fous existants tracent soit une frontière stricte autour de la région connue, bloquant des molécules plus aventureuses, soit estiment l’incertitude de prédiction de manières qui peuvent rester trompeuses lorsque le modèle rencontre quelque chose de réellement nouveau.

Un nouveau sens de l’inconnu
Les auteurs proposent une stratégie différente fondée sur un type de réseau profond appelé autoencodeur. Leur « modèle moléculaire conjoint » apprend deux tâches en parallèle : prédire si une molécule est active sur une cible, et reconstruire la molécule à partir d’un code interne compressé. Si le modèle peine à reconstruire une molécule donnée avec précision, cette molécule est jugée « non familière ». L’équipe convertit cette erreur de reconstruction en un score numérique, appelé unfamiliarity (non-familiarité), qui reflète à quel point une molécule s’écarte des motifs chimiques effectivement appris par le modèle. Crucialement, ce score est déterminé par la compréhension propre du modèle de la chimie plutôt que par de simples mesures de similarité conçues à la main.
Tester les confins de l’espace chimique
Pour évaluer la capacité de l’unfamiliarity à détecter quand un modèle est dépassé, les chercheurs ont constitué 33 jeux de données couvrant différentes cibles biologiques et propriétés. Ils ont utilisé des méthodes de clustering pour diviser chaque jeu en exemples typiques et en exemples structurellement plus inhabituels, simulant la différence entre molécules bien étudiées et molécules nouvelles. Sur ces bancs d’essai, les molécules étiquetées comme hors-distribution présentaient systématiquement des scores d’unfamiliarity plus élevés. Cet effet ne s’expliquait pas par des caractéristiques triviales comme la taille ou la complexité moléculaire. Au contraire, l’unfamiliarity suivait de près la distance entre le cœur structurel d’une molécule et celui des composés d’entraînement, confirmant que le modèle percevait efficacement à quel point une molécule était « hors carte ».
Ce que l’incertitude seule peut manquer
L’équipe a ensuite comparé l’unfamiliarity à plusieurs façons courantes d’estimer la fiabilité des prédictions, y compris l’incertitude du modèle et diverses mesures de similarité chimique. Tant l’unfamiliarity que l’incertitude étaient liées aux performances du classifieur : quand l’un ou l’autre métrique était élevée, les prédictions avaient tendance à être moins précises. Pourtant, les deux signaux étaient en grande partie indépendants. L’unfamiliarity capturait à la fois la distance structurelle et la dégradation des performances, tandis que l’incertitude seule ne reflétait pas très bien la structure, notamment lorsque les molécules provenaient d’une distribution très différente. Lors de criblages virtuels massifs de plus d’un million de molécules commerciales, l’unfamiliarity séparait nettement les composés routiniers des véritables nouveautés, alors que l’incertitude suggérait peu de différence entre les deux groupes.

De l’écran d’ordinateur au laboratoire humide
Pour démontrer l’impact pratique, les chercheurs ont mené un criblage prospectif sur environ 180 000 molécules achetables, à la recherche d’inhibiteurs de deux enzymes pertinentes pour la maladie, PIM1 et CDK1. Ils ont entraîné leur modèle conjoint sur des jeux de données existants modestes puis ont classé les nouveaux composés en combinant trois éléments : activité prédite, incertitude du modèle et unfamiliarity. Après avoir acheté et testé seulement 60 molécules en essais biochimiques, ils ont découvert sept composés de puissance micromolaire faible, tous structurellement distincts des composés d’entraînement et des inhibiteurs typiques de kinases. Les stratégies favorisant une faible unfamiliarity — tout en tolérant l’incertitude — ont tendance à produire les meilleurs hits, suggérant que prendre en compte l’unfamiliarity peut orienter l’exploration vers une chimie prometteuse sans être complètement étrangère.
Ce que cela signifie pour les médicaments de demain
Concrètement, le score d’unfamiliarity donne aux modèles d’apprentissage automatique en chimie un sens intégré du moment où ils extrapolent trop au-delà de ce qu’ils connaissent. En reliant cette perception à la capacité du modèle à reconstruire les molécules, l’approche reflète à la fois la similarité chimique et la fiabilité des prédictions. L’étude montre que cette métrique peut révéler des décalages de distribution que les méthodes standard manquent, améliorer la priorisation dans les criblages virtuels et aider à découvrir de nouvelles familles chimiques dans des expériences réelles. Alors que les chasseurs de médicaments s’aventurent de plus en plus dans les vastes et largement inexplorées étendues de l’espace chimique, l’unfamiliarity offre une boussole raisonnée pour décider quelles prédictions audacieuses valent la peine d’être crues — et testées au laboratoire.
Citation: van Tilborg, D., Rossen, L. & Grisoni, F. Molecular deep learning at the edge of chemical space. Nat Mach Intell 8, 575–587 (2026). https://doi.org/10.1038/s42256-026-01216-w
Mots-clés: apprentissage automatique moléculaire, découverte de médicaments, espace chimique, hors-distribution, criblage virtuel