Clear Sky Science · de

Datensatz von Löslichkeitswerten für organische Verbindungen in binären Lösungsmittelmischungen bei verschiedenen Temperaturen

· Zurück zur Übersicht

Warum das für die Alltagschemie wichtig ist

Viele Produkte, auf die wir angewiesen sind – von Medikamenten über Kunststoffe bis hin zu Farben – hängen davon ab, wie gut sich eine Substanz in einer Flüssigkeit löst. In industriellen Anwendungen arbeitet man selten mit einem einzigen reinen Lösungsmittel; häufig mischt man zwei Flüssigkeiten, um fein zu steuern, wie viel eines Feststoffs sich löst. Für jede neue Verbindung und jedes Lösungsmittelpaar zu messen, ist zeitaufwendig und mühselig. Dieser Artikel stellt MixtureSolDB vor, eine große, sorgfältig geprüfte Sammlung experimenteller Daten, die erfasst, wie mehr als achthundert organische Verbindungen in Hunderten verschiedener Zweikomponenten-Lösungsmittelmischungen über einen weiten Temperaturbereich löslich sind. Eine solche Ressource soll Forschung in der Wirkstoffentwicklung, im Materialdesign und in grüner Fertigung beschleunigen.

Figure 1. Viele Moleküle in vielen gemischten Lösungsmitteln führen zu einer großen Karte, die zeigt, wie gut jede Verbindung löslich ist.
Figure 1. Viele Moleküle in vielen gemischten Lösungsmitteln führen zu einer großen Karte, die zeigt, wie gut jede Verbindung löslich ist.

Eine große Karte des Löslichkeitsverhaltens

Die Autorinnen und Autoren sammelten 175.166 Einzelmessungen der Löslichkeit für 810 organische Verbindungen in 750 verschiedenen binären Lösungsmittelmischungen und deckten damit 3.001 verschiedene Kombinationen aus gelöster Substanz und Mischlösungsmitteln im Bereich von 252 bis 383 Kelvin ab. Jeder Datenpunkt dokumentiert, wie viel einer Verbindung sich in einem bestimmten Lösungsmittelpaar bei einem gegebenen Mischungsverhältnis und einer bestimmten Temperatur löst. Viele dieser Systeme enthalten Wasser gemischt mit einer organischen Flüssigkeit wie einem Alkohol, Aceton oder Acetonitril, was die Häufigkeit solcher Mischungen in Laboren und der Industrie widerspiegelt. Indem sie Daten aus 1.115 begutachteten Artikeln zusammenführten, erweitern die Autorinnen und Autoren frühere öffentliche Datensätze erheblich und bieten Forschenden ein deutlich breiteres und vielfältigeres Bild des Löslichkeitsverhaltens.

Wie die Daten gesammelt und bereinigt wurden

Um diesen Datensatz zusammenzustellen, suchte das Team zunächst wissenschaftliche Zeitschriften nach Artikeln, deren Titel oder Abstract Formulierungen wie „solubility + binary“ oder „solubility + mixture“ enthielten. Ausgehend von 5.775 Treffern entfernten sie Duplikate und Arbeiten ohne verwertbare Daten und extrahierten dann manuell numerische Werte aus 1.115 geeigneten Artikeln. Der Fokus lag auf organischen Verbindungen, organischen Salzen und definierten Solvaten, bei Normaldruck und ohne zusätzliche Zusätze; bei Polymorphen stellten sie sicher, dass die stabilste feste Form verwendet wurde. Molekülstrukturen von Soluten und Lösungsmitteln wurden in das standardisierte textbasierte Format SMILES überführt, und die Benennungskonventionen für Lösungsmittel wurden vereinheitlicht, um Verwechslungen durch Synonyme zu vermeiden.

Zahlen für verschiedene Systeme vergleichbar machen

Rohdaten zur Löslichkeit werden in vielen Formen berichtet, etwa als Molenbruch oder Gramm pro Menge Lösungsmittel, und der Anteil jedes Lösungsmittels in einer Mischung kann nach Masse oder Stoffmenge angegeben werden. Um die Daten konsistent und modellierbar zu machen, konvertierten die Autorinnen und Autoren alle Messungen in mehrere Standardformen, darunter einen massenbasierten Wert ausgedrückt als Gramm gelöster Substanz pro 100 Gramm Lösungsmittel sowie dessen dezimaler Logarithmus, eine übliche Wahl in datengetriebenen Löslichkeitsstudien. Für diese Umrechnungen verwendeten sie Molgewichte, die mit Open-Source-Chemiesoftware berechnet wurden, auch für Spezialfälle wie lösungsmittelbasierte Polyethylenglykole. Die Abschlusstabelle enthält zudem detaillierte Metadaten: Temperatur, Zusammensetzung des Lösungsmittelpaars, Kennungen aus öffentlichen Datenbanken und Hinweise darauf, ob eine Verbindung von der US-amerikanischen Food and Drug Administration als Arzneimittel zugelassen ist.

Figure 2. Das Variieren des Verhältnisses zweier Lösungsmittel um ein Molekül herum zeigt Schritt für Schritt, wie dessen Löslichkeit ansteigt oder abnimmt.
Figure 2. Das Variieren des Verhältnisses zweier Lösungsmittel um ein Molekül herum zeigt Schritt für Schritt, wie dessen Löslichkeit ansteigt oder abnimmt.

Überprüfung der Zuverlässigkeit und Erkundung des Datensatzes

Obwohl die Quellartikel peer-reviewed waren, kann das manuelle Abtippen so vieler Zahlen Fehler einführen. Um dieses Risiko zu verringern, extrahierten zwei ausgebildete Chemikerinnen bzw. Chemiker die Daten unabhängig voneinander, und eine dritte Person verglich und fasste ihre Ergebnisse zusammen. Das Team führte anschließend eine Reihe automatisierter Prüfungen durch, suchte nach unmöglichen Werten wie Löslichkeiten größer als ein Molenbruch von eins oder Lösungsmittelanteilen, die sich nicht korrekt aufsummierten, und prüfte Temperaturen im Vergleich zu bekannten Siedepunkten. Sie verifizierten außerdem Literaturangaben mithilfe digitaler Objektkennungen (DOI) und klärten Inkonsistenzen, bei denen derselbe Name auf unterschiedliche Strukturen verwies oder umgekehrt. Der resultierende Datensatz sowie eine kleinere Tabelle mit Siedepunkten von Lösungsmitteln stehen öffentlich als einfache kommagetrennte Dateien zur Verfügung und können über ein interaktives Online-Tool durchsucht werden, das die Suche nach Verbindungsnamen oder -strukturen ermöglicht und sich auf zugelassene Arzneimittel fokussieren lässt.

Was das für künftige Werkzeuge bedeutet

Für Chemikerinnen und Chemiker sowie Datenwissenschaftlerinnen und -wissenschaftler bietet MixtureSolDB eine Benchmark-Ressource zum Aufbau und Testen von Modellen, die vorhersagen, wie viel einer Verbindung sich in gemischten Lösungsmitteln löst, ohne für jeden Fall neue Experimente durchführen zu müssen. Die große Anzahl an Datenpunkten und die Vielfalt an Verbindungen und Lösungsmittelpaaren hilft maschinellen Lernverfahren, allgemeinere Muster zu erlernen, statt sich auf eine enge Fallauswahl zu überanpassen. Während die Autorinnen und Autoren ein logarithmisches Maß als am besten geeignetes Zielmaß zum Vergleich verschiedener Systeme empfehlen, liefern sie zugleich praktischere massenbasierte Werte für die Planung im Labor. Letztlich sollte dieser Datensatz Forschenden helfen, bessere Reaktionen, Kristallisationsprozesse und Formulierungen zu entwerfen, indem er schnellere und fundiertere Entscheidungswege bei der Auswahl von Lösungsmittelmischungen bietet.

Zitation: Malikov, D., Krasnov, L., Kiseleva, M. et al. Dataset of solubility values for organic compounds in binary mixtures of solvents at various temperatures. Sci Data 13, 727 (2026). https://doi.org/10.1038/s41597-026-07047-z

Schlüsselwörter: Löslichkeit, binäre Lösungsmittelmischungen, Machine-Learning-Datensatz, organische Verbindungen, Cheminformatik