Clear Sky Science · fr

Jeu de données de valeurs de solubilité pour composés organiques dans des mélanges binaires de solvants à diverses températures

· Retour à l’index

Pourquoi cela compte pour la chimie quotidienne

De nombreux produits dont nous dépendons, des médicaments aux plastiques et peintures, reposent sur la capacité d’une substance à se dissoudre dans un liquide. En contexte industriel, les scientifiques travaillent rarement avec un seul solvant pur ; ils mélangent souvent deux liquides pour ajuster la quantité d’un solide qui se dissout. Mesurer cela pour chaque nouveau composé et chaque paire de solvants est lent et laborieux. Cet article présente MixtureSolDB, une vaste collection de données expérimentales soigneusement vérifiées qui rend compte de la solubilité de plus de huit cents composés organiques dans des centaines de mélanges de deux solvants à une large gamme de températures. Une telle ressource est conçue pour accélérer la recherche en développement de médicaments, conception de matériaux et fabrication plus verte.

Figure 1. Beaucoup de molécules dans de nombreux solvants mixtes alimentant une grande carte montrant à quel point chaque composé se dissout.
Figure 1. Beaucoup de molécules dans de nombreux solvants mixtes alimentant une grande carte montrant à quel point chaque composé se dissout.

Une grande carte de la dissolution

Les auteurs ont rassemblé 175 166 mesures individuelles de solubilité pour 810 composés organiques dans 750 mélanges binaires de solvants différents, couvrant 3 001 combinaisons distinctes de soluté et de solvants mixtes entre 252 et 383 kelvins. Chaque point de données enregistre la quantité d’un composé pouvant se dissoudre dans une paire donnée de solvants à un rapport de mélange et une température particuliers. Nombre de ces systèmes comprennent de l’eau mélangée à un liquide organique tel qu’un alcool, l’acétone ou l’acétonitrile, reflétant la fréquence d’utilisation de tels mélanges en laboratoire et dans l’industrie. En s’appuyant sur 1 115 articles évalués par des pairs, les auteurs étendent considérablement les jeux de données publics précédents, offrant aux chercheurs un tableau beaucoup plus large et varié du comportement de la solubilité.

Comment les données ont été collectées et nettoyées

Pour constituer ce jeu de données, l’équipe a d’abord recherché dans les revues scientifiques des articles dont les titres ou résumés contenaient des expressions comme « solubility + binary » ou « solubility + mixture ». À partir de 5 775 notices, ils ont éliminé les doublons et les articles sans données exploitables, puis extrait manuellement les valeurs numériques de 1 115 articles appropriés. Ils se sont concentrés sur les composés organiques, les sels organiques et les solvates définis, à pression normale et sans additifs, en s’assurant que les formes solides retenues étaient les plus stables lorsque des polymorphes étaient impliqués. Les structures moléculaires des solutés et des solvants ont été traduites dans un format textuel standard appelé SMILES, et les conventions de dénomination des solvants ont été unifiées pour éviter la confusion entre synonymes.

Rendre les nombres comparables entre systèmes

Les données brutes de solubilité peuvent être rapportées de multiples façons, par exemple en fraction molaire ou en grammes par quantité de solvant, et la fraction de chaque solvant dans un mélange peut être donnée en masse ou en mole. Pour rendre les données cohérentes et prêtes pour la modélisation, les auteurs ont converti toutes les mesures en plusieurs formats standard, y compris une valeur basée sur la masse exprimée en grammes de soluté pour 100 grammes de solvant et son logarithme décimal, un choix courant dans les études de solubilité axées sur les données. Ils ont utilisé des masses molaires calculées par des logiciels de chimie open source pour effectuer ces conversions, y compris pour des cas particuliers tels que des solvants à base d’éthylène glycol. Le tableau final enregistre également des métadonnées détaillées : la température, la composition de la paire de solvants, des identifiants de bases de données publiques, et si un composé est approuvé comme médicament par la Food and Drug Administration des États-Unis.

Figure 2. Faire varier le rapport de deux solvants autour d’une molécule pour montrer comment sa solubilité augmente ou diminue pas à pas.
Figure 2. Faire varier le rapport de deux solvants autour d’une molécule pour montrer comment sa solubilité augmente ou diminue pas à pas.

Vérification de la fiabilité et exploration du jeu de données

Bien que les articles sources aient été évalués par des pairs, recopier autant de nombres à la main peut introduire des erreurs. Pour réduire ce risque, deux chimistes formés ont extrait indépendamment les données et une troisième personne a comparé et fusionné leurs résultats. L’équipe a ensuite exécuté une série de contrôles automatisés, recherchant des valeurs impossibles telles que des solubilités supérieures à une fraction molaire de un ou des fractions de solvants ne s’additionnant pas correctement, et a vérifié les températures par rapport aux points d’ébullition connus. Ils ont également vérifié les références bibliographiques à l’aide d’identifiants d’objets numériques et résolu les incohérences lorsque le même nom renvoyait à des structures différentes ou inversement. Le jeu de données résultant, ainsi qu’un tableau plus petit des points d’ébullition des solvants, est disponible publiquement sous forme de fichiers séparés par des virgules et peut être consulté via un outil interactif en ligne qui permet de rechercher par nom de composé ou structure et de se concentrer sur les médicaments approuvés.

Ce que cela signifie pour les outils futurs

Pour les chimistes et les scientifiques des données, MixtureSolDB offre une ressource de référence pour construire et tester des modèles qui prédisent la quantité d’un composé qui se dissoudra dans des solvants mixtes sans réaliser à chaque fois de nouvelles expériences. Le grand nombre de points de données et la grande variété de composés et de paires de solvants aident les méthodes d’apprentissage automatique à capter des motifs plus généraux au lieu de suradapter à un ensemble restreint de cas. Alors que les auteurs recommandent une mesure logarithmique comme cible la plus adaptée pour comparer différents systèmes, ils fournissent aussi des valeurs pratiques basées sur la masse pour une planification réaliste en laboratoire. En fin de compte, ce jeu de données devrait aider les chercheurs à concevoir de meilleures réactions, procédés de cristallisation et formulations en leur offrant des moyens plus rapides et mieux informés de choisir des mélanges de solvants.

Citation: Malikov, D., Krasnov, L., Kiseleva, M. et al. Dataset of solubility values for organic compounds in binary mixtures of solvents at various temperatures. Sci Data 13, 727 (2026). https://doi.org/10.1038/s41597-026-07047-z

Mots-clés: solubilité, mélanges binaires de solvants, jeu de données pour apprentissage automatique, composés organiques, chémoinformatique