Clear Sky Science · fr
Modèle d’apprentissage automatique compatible avec la thermodynamique pour l’énergie libre de Gibbs d’excès
Pourquoi cela compte pour la chimie du quotidien
La vie moderne dépend des mélanges de liquides, des carburants et réfrigérants aux produits pharmaceutiques et solvants verts. Concevoir ces mélanges de façon sûre et efficace requiert de connaître comment leurs molécules interagissent. Or il est impossible de mesurer ces interactions pour chaque combinaison possible. Cet article présente un nouvel outil d’apprentissage automatique, appelé HANNA, qui apprend le comportement des mélanges liquides directement à partir des données tout en respectant les lois fondamentales de la thermodynamique. Il promet des prédictions plus rapides, plus étendues et plus fiables pour guider la conception de procédés chimiques et la découverte de matériaux.

L’énergie cachée qui façonne les mélanges liquides
Quand différents liquides sont mélangés, leurs molécules s’attirent ou se repoussent entre elles de façons souvent subtiles. Ces effets sont décrits par une quantité appelée « énergie libre de Gibbs d’excès », qui indique dans quelle mesure le mélange s’écarte d’un comportement idéal. À partir de cette seule fonction, les ingénieurs peuvent déduire des propriétés clés comme les coefficients d’activité, qui déterminent à leur tour si un mélange forme une seule phase liquide ou se sépare en deux, si vapeur et liquide coexistent, et comment les composants se répartissent entre les phases. Malheureusement, l’énergie libre de Gibbs d’excès ne se mesure pas directement. Elle doit être déduite d’expériences laborieuses sur les équilibres vapeur–liquide et liquide–liquide ou sur des effets thermiques, et seule une fraction infime des mélanges pertinents a été étudiée.
Limites des outils de prédiction traditionnels
Depuis des décennies, les ingénieurs s’appuient sur des modèles comme NRTL, UNIQUAC et la famille UNIFAC pour estimer le comportement des mélanges. Ces méthodes approximant les interactions par des paramètres ajustés sur des données expérimentales, souvent au niveau binaire. Puissantes, elles présentent toutefois des limites importantes : pour prédire un nouveau mélange, on a généralement besoin des paramètres de chaque sous-système binaire qui le compose, et ceux-ci peuvent manquer pour des composés inédits. Même les approches basées sur des groupes comme UNIFAC, qui décomposent les molécules en blocs de construction, restent contraintes à un catalogue fixe de groupes et peuvent rencontrer des difficultés avec des espèces complexes comme les liquides ioniques. De plus, de nombreux modèles classiques peinent à décrire simultanément et avec précision les équilibres vapeur–liquide et liquide–liquide avec un seul jeu de paramètres.
Un réseau neuronal qui respecte les lois physiques
HANNA relève ces défis en combinant des réseaux neuronaux modernes avec des règles thermodynamiques intégrées. En entrée, il n’a besoin que des structures moléculaires des composants (encodées en chaînes SMILES), de la température et de la composition du mélange. Un modèle de langage chimique (ChemBERTa-2) convertit d’abord chaque molécule en un fingerprint numérique. Ces empreintes alimentent une architecture réseau spécialisée conçue pour satisfaire des exigences de cohérence clés : elle respecte la relation de Gibbs–Duhem, se comporte correctement lorsque l’un des composants devient pur ou infiniment dilué, et donne le même résultat quel que soit l’ordre des composants. À partir de ces contraintes, HANNA prédit l’énergie libre de Gibbs d’excès pour chaque paire binaire d’un mélange, puis utilise un schéma de projection géométrique pour étendre ces prédictions aux mélanges à plusieurs composants, sans introduire de paramètres d’ajustement supplémentaires.

Entraînement sur des données réelles, pas seulement des équations
Pour rendre HANNA largement utile, les auteurs l’ont entraîné sur une base de données expérimentales exceptionnellement vaste et diversifiée. Celle-ci comprend des données vapeur–liquide avec compositions de phase complètes, des données vapeur–liquide avec seulement des pressions totales, des séparations de phase liquide–liquide, des coefficients d’activité à dilution infinie et des enthalpies d’excès, couvrant plus de 800 000 points de données et plus de 4 000 composés distincts, y compris des liquides ioniques et d’autres espèces difficiles. Une innovation clé est un solveur de substitution qui émule un algorithme thermodynamique robuste pour détecter et localiser les séparations liquide–liquide. Ce substitut est différentiable, de sorte que HANNA peut être entraîné de bout en bout (« end-to-end ») sur les compositions de phase mesurées sans recourir à des calculs itératifs lents à l’intérieur de la boucle d’apprentissage. Des termes de perte additionnels encouragent HANNA à reconnaître la courbure associée à la séparation de phase et à produire des prédictions lisses qui se comportent de façon raisonnable même au-delà de la plage d’entraînement.
Comment le nouveau modèle se compare
Une fois entraîné, HANNA a été testé uniquement sur des systèmes exclus du jeu d’entraînement, et ses performances ont été comparées à celles des modèles classiques et d’apprentissage automatique de référence. Pour les mélanges binaires, il a systématiquement prédit les coefficients d’activité, les compositions de phase et les enthalpies d’excès avec plus de précision que la méthode UNIFAC modifiée (Dortmund) largement utilisée, tout en identifiant de façon plus fiable les écarts d’assimilation liquide–liquide. Pour les mélanges ternaires et même quaternaires, qu’il n’avait jamais vus durant l’entraînement, HANNA est resté compétitif voire supérieur, malgré son recours uniquement aux données binaires plus la projection géométrique. Il a également surpassé plusieurs récents réseaux neuronaux basés sur des graphes qui manquaient soit d’une stricte cohérence thermodynamique, soit étaient limités à des conditions particulières comme la température ambiante ou la dilution infinie.
Ce que cela signifie pour la science et l’industrie
Pour un non-spécialiste, le message central est que HANNA agit comme un « oracle » fortement informé et ancré physiquement pour les mélanges liquides. Données seulement les formules chimiques, il peut prédire si deux liquides ou plus se mélangeront, se sépareront en couches ou présenteront un comportement de phase complexe, et ce sur une large gamme de températures. Surtout, il le fait en respectant les règles thermodynamiques sous-jacentes, ce qui réduit le risque de résultats non physiques qui peuvent affecter les modèles d’apprentissage sans contraintes. Comme le modèle complet et le code sont publiés ouvertement et accessibles via une interface web, les ingénieurs peuvent commencer à utiliser HANNA directement pour la simulation de procédés et le criblage de solvants. Bien que les auteurs notent des limites restantes — telles que des performances non testées loin de la plage de température d’entraînement et pour les électrolytes forts — ce travail représente un pas important vers une conception de procédés chimiques fondée sur les données et cohérente thermodynamiquement.
Citation: Hoffmann, M., Specht, T., Göttl, Q. et al. Thermodynamically consistent machine learning model for excess Gibbs energy. Nat Commun 17, 3485 (2026). https://doi.org/10.1038/s41467-026-71430-y
Mots-clés: mélanges liquides, thermodynamique, apprentissage automatique, énergie libre de Gibbs d’excès, équilibres de phase