Clear Sky Science · nl

Dataset met oplosbaarheidswaarden voor organische verbindingen in binaire mengsels van oplosmiddelen bij verschillende temperaturen

· Terug naar het overzicht

Waarom dit belangrijk is voor alledaagse chemie

Veel producten waarop we vertrouwen, van medicijnen tot kunststoffen en verven, hangen af van hoe goed een stof oplost in een vloeistof. In echte industriële situaties werken wetenschappers zelden met één puur oplosmiddel; ze mengen vaak twee vloeistoffen om precies af te stemmen hoeveel van een vaste stof zal oplossen. Het meten hiervan voor elk nieuw molecuul en elke oplosmiddelcombinatie is langzaam en arbeidsintensief. Dit artikel introduceert MixtureSolDB, een grote, zorgvuldig gecontroleerde verzameling experimentele gegevens die vastlegt hoe meer dan achthonderd organische verbindingen oplossen in honderden verschillende tweevoudige oplosmiddelmengsels over een breed temperatuurbereik. Zo’n bron is bedoeld om onderzoek naar geneesmiddelenontwikkeling, materiaalontwerp en duurzame productie te versnellen.

Figure 1. Veel moleculen in veel gemengde oplosmiddelen die samen één grote kaart vormen van hoe goed elke verbinding oplost.
Figure 1. Veel moleculen in veel gemengde oplosmiddelen die samen één grote kaart vormen van hoe goed elke verbinding oplost.

Een grote kaart van hoe stoffen oplossen

De auteurs verzamelden 175.166 individuele meetwaarden van oplosbaarheid voor 810 organische verbindingen in 750 verschillende binaire oplosmiddelmengsels, goed voor 3.001 afzonderlijke combinaties van oplosmiddel en gemengd oplosmiddel tussen 252 en 383 kelvin. Elk datapunt registreert hoeveel van een verbinding kan oplossen in een bepaald paar oplosmiddelen bij een specifieke mengverhouding en temperatuur. Veel van deze systemen bevatten water gemengd met een organische vloeistof zoals een alcohol, aceton of acetonitril, wat weerspiegelt hoe vaak dergelijke mengsels in laboratoria en industrie worden gebruikt. Door te putten uit 1.115 peer-reviewed artikelen breiden de auteurs eerdere openbare datasets sterk uit en bieden ze onderzoekers een veel breder en gevarieerder beeld van oplosbaarheidsgedrag.

Hoe de data zijn verzameld en opgeschoond

Om deze dataset samen te stellen doorzocht het team eerst wetenschappelijke tijdschriften op artikelen waarvan de titels of samenvattingen zinnen bevatten als "oplosbaarheid + binair" of "oplosbaarheid + mengsel." Beginnend vanuit 5.775 records verwijderden ze duplicaten en artikelen zonder bruikbare gegevens, waarna ze handmatig numerieke waarden ontleenden uit 1.115 geschikte artikelen. Ze richtten zich op organische verbindingen, organische zouten en gedefinieerde solvaten, onder normale druk en zonder extra additieven, en zorgden ervoor dat vaste vormen de stabielste waren wanneer polymorfen betrokken waren. Moleculaire structuren van oplosmiddelen en oplosmiddelparen werden vertaald naar een standaard tekstgebaseerd formaat genaamd SMILES, en naamgevingsconventies voor oplosmiddelen werden geharmoniseerd om verwarring door synoniemen te voorkomen.

Getallen vergelijkbaar maken tussen systemen

Ruwe oplosbaarheidsgegevens kunnen op veel manieren worden gerapporteerd, zoals molfractie of gram per hoeveelheid oplosmiddel, en de fractie van elk oplosmiddel in een mengsel kan worden gegeven naar massa of naar mol. Om de gegevens consistent en modelklaar te maken, zetten de auteurs alle metingen om in verschillende standaardvormen, waaronder een massa-gebaseerde waarde uitgedrukt als gram opgeloste stof per 100 gram oplosmiddel en de decimale logaritme daarvan, een veelgebruikte keuze in gegevensgestuurde oplosbaarheidsstudies. Ze gebruikten molaire massa’s berekend met open source chemiesoftware om deze conversies uit te voeren, ook voor speciale gevallen zoals oplosmiddelen op basis van polyethyleenglycol. De eindtabel registreert ook gedetailleerde metadata: de temperatuur, de samenstelling van het oplosmidde paar, identificatoren uit openbare databanken en of een verbinding is goedgekeurd als geneesmiddel door de Amerikaanse Food and Drug Administration.

Figure 2. Het veranderen van de verhouding van twee oplosmiddelen rond een molecule om stap voor stap te laten zien hoe de oplosbaarheid stijgt of daalt.
Figure 2. Het veranderen van de verhouding van twee oplosmiddelen rond een molecule om stap voor stap te laten zien hoe de oplosbaarheid stijgt of daalt.

Betrouwbaarheid controleren en de dataset verkennen

Hoewel de bronartikelen al peer-reviewed waren, kan het handmatig overnemen van zoveel getallen fouten introduceren. Om dit risico te verkleinen, haalden twee getrainde chemici onafhankelijk de gegevens over en vergeleek een derde persoon hun resultaten en voegde ze samen. Het team voerde daarna een reeks geautomatiseerde controles uit, op zoek naar onmogelijke waarden zoals oplosbaarheden groter dan een molfractie van één of oplosmiddelfracties die niet correct optelden, en controleerden temperaturen tegen bekende kookpunten. Ze verifieerden ook literatuurverwijzingen met digitale object identifiers en losten inconsistenties op waarbij dezelfde naam naar verschillende structuren verwees of andersom. De resulterende dataset, samen met een kleinere tabel van kookpunten van oplosmiddelen, is openbaar beschikbaar als eenvoudige komma-gescheiden bestanden en kan worden doorzocht via een interactieve online tool die gebruikers in staat stelt te zoeken op verbindingnaam of structuur en te focussen op goedgekeurde geneesmiddelen.

Wat dit betekent voor toekomstige tools

Voor chemici en dataspecialisten biedt MixtureSolDB een referentieresource om modellen te bouwen en te testen die voorspellen hoeveel van een verbinding zal oplossen in gemengde oplosmiddelen zonder telkens nieuwe experimenten uit te voeren. Het grote aantal datapunten en de brede variëteit aan verbindingen en oplosmiddelparen helpen machine learning-methoden om meer algemene patronen te leren in plaats van te overfitten op een smalle set gevallen. Terwijl de auteurs één logaritmische maat aanbevelen als het meest geschikte doel voor het vergelijken van verschillende systemen, bieden ze ook praktischere massa-gebaseerde waarden voor reële planning in het laboratorium. Uiteindelijk zou deze dataset onderzoekers moeten helpen betere reacties, kristallisatieprocessen en formuleringen te ontwerpen door hen snellere, beter onderbouwde manieren te bieden om oplosmiddelmengsels te kiezen.

Bronvermelding: Malikov, D., Krasnov, L., Kiseleva, M. et al. Dataset of solubility values for organic compounds in binary mixtures of solvents at various temperatures. Sci Data 13, 727 (2026). https://doi.org/10.1038/s41597-026-07047-z

Trefwoorden: oplosbaarheid, binaire oplosmiddelmengsels, machine learning dataset, organische verbindingen, cheminformatica