Clear Sky Science · it
Sviluppo e valutazione di un modello efficace per la previsione della solubilità di farmaci in solventi organici mediante machine learning basato su eXtreme Gradient Boosting
Perché sciogliere i medicinali è davvero importante
Quando una compressa entra nel corpo, deve prima dissolversi per poter svolgere la sua funzione. La facilità con cui un principio attivo si dissolve in un liquido influisce sul processo di produzione del farmaco, sulla sua stabilità e sulla sua efficacia. Misurare questa «solubilità» in molti liquidi e a diverse temperature è lento e costoso. Questo studio esplora come uno strumento moderno di dati, il machine learning, possa aiutare gli scienziati a stimare rapidamente quanto bene composti simili a farmaci si dissolvono in liquidi organici comuni, usando solo una piccola quantità di informazioni facili da ottenere.
Scegliere il liquido giusto per la formazione dei cristalli
Nella produzione farmaceutica, i produttori spesso fanno crescere cristalli di un principio attivo a partire da un liquido organico. Il solvente non controlla solo la quantità di solido recuperato; influenza anche la dimensione e la forma dei cristalli, che a loro volta possono modificare il comportamento del medicinale. Tradizionalmente, i chimici eseguono molti esperimenti o utilizzano complesse equazioni termodinamiche per prevedere la solubilità. Questi metodi consolidati possono essere accurati ma spesso richiedono numerosi parametri da adattare o dati molecolari dettagliati non disponibili nelle prime fasi di sviluppo. Gli autori di questo lavoro si sono invece chiesti se un modello di machine learning progettato con cura possa cogliere le tendenze chiave della solubilità restando ancorato a input semplici e fisicamente significativi.

Un modello compatto guidato dai dati con intuizione fisica
Il gruppo ha costruito un modello di previsione della solubilità usando un metodo di machine learning diffuso chiamato eXtreme Gradient Boosting, o XGBoost. Hanno raccolto dati pubblicati di solubilità per quattro molecole di tipo farmaceutico in nove solventi organici comuni, su un ampio intervallo di temperature, ottenendo 224 punti dati. Piuttosto che fornire all’algoritmo descrittori arbitrari, hanno selezionato dieci caratteristiche che i chimici già comprendono: proprietà del solido (come temperatura di fusione, calore di fusione, capacità termica e un noto parametro di solubilità), proprietà di base del liquido (polarità tramite costante dielettrica e temperatura di ebollizione), oltre alla temperatura stessa e a codifiche semplici dei nomi del solido e del liquido. Per riflettere il fatto che la maggior parte dei solidi si dissolve meglio riscaldandosi, hanno inserito una regola che obbliga le previsioni del modello ad aumentare con la temperatura, garantendo un comportamento fisicamente ragionevole.
Quanto il modello corrisponde alle misure reali
Dopo aver messo a punto il modello tramite cross-validation, gli autori hanno testato quanto le previsioni corrispondessero ai valori misurati. Hanno valutato le prestazioni confrontando il logaritmo delle solubilità misurate e previste, misura adatta poiché le solubilità coprivano diversi ordini di grandezza. Per le quattro composti usati per addestramento e test, il modello ha riprodotto i dati con errori medi molto piccoli e alta correlazione, indicando che può descrivere in modo affidabile la solubilità dipendente dalla temperatura in molti ambienti liquidi. Importante, il modello è rimasto accurato anche per un composto molto poco solubile, la risperidone, il cui comportamento è notoriamente difficile da catturare con equazioni più semplici.

Prevedere un composto completamente nuovo
La domanda cruciale era se il modello potesse gestire un principio attivo che non aveva mai visto. Per testarlo, i ricercatori hanno messo da parte tutti i dati per un quinto composto, il butamben, e hanno utilizzato quelle 50 misure solo dopo aver completato l’addestramento. Gli errori del modello sono stati più grandi per questo compito di previsione vera rispetto ai dati già visti, ma sono comunque rimasti entro un intervallo paragonabile all’incertezza sperimentale tipica, soprattutto per diversi dei solventi testati. Se confrontato con due metodi termodinamici semi-predittivi ampiamente utilizzati, Flory–Huggins e NRTL-SAC dipendente dalla temperatura, il modello XGBoost ha prodotto costantemente errori complessivi più piccoli e ha reso particolarmente bene nei sistemi più sfidanti.
Cosa significa per lo sviluppo futuro dei farmaci
Per i non specialisti, il punto chiave è che un modello di machine learning relativamente piccolo e informato fisicamente può stimare in modo affidabile quanto bene molecole simili a farmaci si dissolvono in solventi organici comuni su un intervallo di temperature. Lo fa usando un insieme modesto di proprietà misurabili, senza il pesante adattamento di parametri spesso richiesto dagli approcci tradizionali. Sebbene gli autori notino che un’ulteriore rifinitura dei descrittori scelti e un dataset più ampio migliorerebbero le prestazioni, lo studio dimostra che tali modelli possono già supportare la selezione dei solventi e la progettazione dei processi, aiutando i chimici a restringere le opzioni promettenti prima di eseguire lavori di laboratorio dettagliati.
Citazione: Valavi, M., Assareh, M., Khoshsima, A. et al. Development and evaluation of an effective solubility prediction model for pharmaceuticals in organic solvents using machine learning based on eXtreme Gradient Boosting. Sci Rep 16, 16592 (2026). https://doi.org/10.1038/s41598-026-53038-w
Parole chiave: solubilità dei farmaci, solventi organici, machine learning, XGBoost, cristallizzazione