Clear Sky Science · it

Set di dati di valori di solubilità per composti organici in miscele binarie di solventi a varie temperature

· Torna all'indice

Perché questo è importante per la chimica di tutti i giorni

Molti prodotti su cui facciamo affidamento, dai farmaci alle materie plastiche e alle vernici, dipendono da quanto bene una sostanza si scioglie in un liquido. In contesti industriali reali, gli scienziati raramente lavorano con un singolo solvente puro; spesso mescolano due liquidi per regolare con precisione quanto di un solido si dissolverà. Misurare questo per ogni nuovo composto e coppia di solventi è lento e laborioso. Questo articolo presenta MixtureSolDB, una grande raccolta di dati sperimentali accuratamente verificata che cattura come più di ottocento composti organici si dissolvono in centinaia di diverse miscele binarie di solventi su un ampio intervallo di temperature. Una risorsa del genere è pensata per accelerare la ricerca nello sviluppo di farmaci, nella progettazione di materiali e nella produzione sostenibile.

Figure 1. Molte molecole in molti solventi misti che alimentano una grande mappa di quanto bene ciascun composto si scioglie.
Figure 1. Molte molecole in molti solventi misti che alimentano una grande mappa di quanto bene ciascun composto si scioglie.

Una grande mappa di come le sostanze si dissolvono

Gli autori hanno raccolto 175.166 misurazioni individuali di solubilità per 810 composti organici in 750 diverse miscele binarie di solventi, coprendo 3.001 combinazioni distinte di soluto e solventi misti tra 252 e 383 kelvin. Ogni dato registra quanto di un composto può sciogliersi in una coppia di solventi data a un particolare rapporto di miscelazione e temperatura. Molti di questi sistemi includono acqua mescolata con un liquido organico come un alcol, acetone o acetonitrile, riflettendo la frequente utilizzazione di tali miscele nei laboratori e nell’industria. Attrarre dati da 1.115 articoli peer reviewed permette agli autori di ampliare notevolmente i dati pubblici precedenti, offrendo ai ricercatori un quadro molto più ampio e variegato del comportamento di solubilità.

Come sono stati raccolti e puliti i dati

Per assemblare questo set di dati, il team ha prima cercato nelle riviste scientifiche articoli i cui titoli o abstract contenevano frasi come “solubility + binary” o “solubility + mixture.” Partendo da 5.775 record, hanno rimosso duplicati e lavori senza dati utilizzabili, quindi hanno estratto manualmente i valori numerici da 1.115 articoli idonei. Si sono concentrati su composti organici, sali organici e solvati definiti, a pressione normale e senza additivi, assicurandosi che le forme solide fossero quelle più stabili in presenza di polimorfismi. Le strutture molecolari di soluti e solventi sono state tradotte in un formato testuale standard chiamato SMILES, e le convenzioni di denominazione dei solventi sono state unificate per evitare confusioni tra sinonimi.

Rendere i numeri confrontabili tra i sistemi

I dati grezzi di solubilità possono essere riportati in modi diversi, come frazione molare o grammi per quantità di solvente, e la frazione di ciascun solvente in una miscela può essere espressa per massa o per mole. Per rendere i dati consistenti e pronti per la modellazione, gli autori hanno convertito tutte le misurazioni in diverse forme standard, includendo un valore basato sulla massa espresso come grammi di soluto per 100 grammi di solvente e il suo logaritmo decimale, una scelta comune negli studi di solubilità guidati dai dati. Hanno utilizzato pesi molecolari calcolati con software chimico open source per effettuare queste conversioni, anche per casi speciali come solventi a base di polietilenglicole. La tabella finale registra anche metadati dettagliati: temperatura, composizione della coppia di solventi, identificatori da database pubblici e se un composto è approvato come farmaco dalla U.S. Food and Drug Administration.

Figure 2. Modificare la proporzione di due solventi intorno a una molecola per mostrare come la sua solubilità aumenta o diminuisce passo dopo passo.
Figure 2. Modificare la proporzione di due solventi intorno a una molecola per mostrare come la sua solubilità aumenta o diminuisce passo dopo passo.

Verifica dell’affidabilità ed esplorazione del dataset

Sebbene gli articoli sorgente fossero già peer reviewed, copiare così tanti numeri a mano può introdurre errori. Per ridurre questo rischio, due chimici formati hanno estratto i dati in modo indipendente e una terza persona ha confrontato e fuso i loro risultati. Il team ha quindi eseguito una serie di controlli automatizzati, cercando valori impossibili come solubilità superiori a una frazione molare di uno o frazioni di solvente che non sommavano correttamente, e ha verificato le temperature rispetto ai noti punti di ebollizione. Hanno anche controllato i riferimenti bibliografici usando identificatori di oggetti digitali e risolto incoerenze in cui lo stesso nome puntava a strutture diverse o viceversa. Il dataset risultante, insieme a una tabella più piccola dei punti di ebollizione dei solventi, è disponibile pubblicamente come semplici file separati da virgole e può essere esplorato tramite uno strumento online interattivo che permette agli utenti di cercare per nome del composto o struttura e di concentrarsi sui farmaci approvati.

Cosa significa per gli strumenti futuri

Per chimici e data scientist, MixtureSolDB offre una risorsa di riferimento per costruire e testare modelli che prevedono quanto di un composto si dissolverà in solventi misti senza eseguire nuovi esperimenti ogni volta. Il grande numero di punti dati e l’ampia varietà di composti e coppie di solventi aiutano i metodi di machine learning ad apprendere pattern più generali invece di adattarsi eccessivamente a un insieme ristretto di casi. Mentre gli autori raccomandano una misura logaritmica come obiettivo più adatto per confrontare sistemi diversi, forniscono anche valori pratici basati sulla massa per la pianificazione concreta in laboratorio. In ultima analisi, questo set di dati dovrebbe aiutare i ricercatori a progettare reazioni, processi di cristallizzazione e formulazioni migliori, fornendo modi più rapidi e informati per scegliere le miscele di solventi.

Citazione: Malikov, D., Krasnov, L., Kiseleva, M. et al. Dataset of solubility values for organic compounds in binary mixtures of solvents at various temperatures. Sci Data 13, 727 (2026). https://doi.org/10.1038/s41597-026-07047-z

Parole chiave: solubilità, miscele binarie di solventi, dataset per apprendimento automatico, composti organici, cheminformatica