Clear Sky Science · nl

Ontwikkeling en evaluatie van een effectief oplosbaarheidsvoorspellingsmodel voor geneesmiddelen in organische oplosmiddelen met behulp van machine learning gebaseerd op eXtreme Gradient Boosting

· Terug naar het overzicht

Waarom het oplossen van geneesmiddelen echt belangrijk is

Wanneer een pil uw lichaam binnenkomt, moet hij eerst oplossen voordat hij effectief kan zijn. Hoe gemakkelijk een werkzame stof in een vloeistof oplost beïnvloedt hoe een medicijn wordt vervaardigd, hoe stabiel het is en hoe goed het werkt. Het meten van deze "oplosbaarheid" in veel verschillende vloeistoffen en temperaturen is traag en kostbaar. Deze studie onderzoekt hoe een modern data-instrument, machine learning, wetenschappers kan helpen snel in te schatten hoe goed medicijnachtige verbindingen oplossen in veelgebruikte organische vloeistoffen, met slechts een kleine hoeveelheid makkelijk verkrijgbare informatie.

Het juiste oplosmiddel kiezen voor kristalgroei

In de geneesmiddelenproductie kweken producenten vaak kristallen van een werkzame stof uit een organische vloeistof. De vloeistof bepaalt niet alleen hoeveel vaststof wordt teruggewonnen; ze beïnvloedt ook de grootte en vorm van de kristallen, wat op zijn beurt het gedrag van het medicijn kan beïnvloeden. Traditioneel voeren chemi­ci veel experimenten uit of gebruiken ze ingewikkelde thermodynamische vergelijkingen om oplosbaarheid te voorspellen. Deze gevestigde methoden kunnen nauwkeurig zijn maar vereisen vaak veel afgestemde parameters of gedetailleerde moleculaire gegevens die in een vroeg stadium niet beschikbaar zijn. De auteurs van dit werk vragen zich in plaats daarvan af of een zorgvuldig ontworpen machine-learningmodel de belangrijkste trends in oplosbaarheid kan vastleggen, terwijl het gebaseerd blijft op eenvoudige, fysisch betekenisvolle invoerwaarden.

Figure 1. Hoe een compact machine-learningmodel basiskenmerken van geneesmiddelen en oplosmiddelen koppelt aan oplosbaarheid in vele organische vloeistoffen.
Figure 1. Hoe een compact machine-learningmodel basiskenmerken van geneesmiddelen en oplosmiddelen koppelt aan oplosbaarheid in vele organische vloeistoffen.

Een compact datagedreven model met fysische inzichten

Het team bouwde een oplosbaarheidsvoorspellingsmodel met een populaire machine-learningmethode genaamd eXtreme Gradient Boosting, of XGBoost. Ze verzamelden gepubliceerde oplosbaarheidsgegevens voor vier medicijnachtige moleculen in negen gangbare organische vloeistoffen, over een breed temperatuurbereik, wat resulteerde in 224 datapunten. In plaats van het algoritme willekeurige descriptoren te geven, selecteerden ze tien kenmerken die chemici al begrijpen: eigenschappen van de vaste stof (zoals smelttemperatuur, smeltwarmte, warmtecapaciteit en een veelgebruikte oplosbaarheidsparameter), basiseigenschappen van de vloeistof (polariteit via de diëlektrische constante en kooktemperatuur) plus de temperatuur zelf en eenvoudige coderingen van de namen van de vaste stof en de vloeistof. Om te weerspiegelen dat de meeste vaste stoffen beter oplossen bij opwarming, bouwden ze een regel in die de voorspellingen van het model dwingt toe te nemen met de temperatuur, waarmee fysisch aannemelijk gedrag wordt gewaarborgd.

Hoe goed het model overeenkomt met echte metingen

Na het afstemmen van het model met kruisvalidatie testten de auteurs hoe nauwkeurig de voorspellingen overeenkwamen met gemeten waarden. Ze evalueerden de prestaties door de logaritme van de gemeten en voorspelde oplosbaarheden te vergelijken, wat geschikt is omdat de oplosbaarheden meerdere grootteordes besloegen. Voor de vier verbindingen die voor training en testen werden gebruikt, reproduceerde het model de data met zeer kleine gemiddelde fouten en hoge correlatie, wat aangeeft dat het betrouwbaar temperatuurafhankelijke oplosbaarheid over veel vloeistofomgevingen kan beschrijven. Belangrijk is dat het model nauwkeurig bleef zelfs voor een zeer slecht oplosbare verbinding, risperidon, waarvan het gedrag berucht moeilijk te vatten is met eenvoudigere vergelijkingen.

Figure 2. Stapsgewijze weergave van invoer, machine-learningmodel en overeenstemmende krommen voor gemeten en voorspelde oplosbaarheid bij stijgende temperatuur.
Figure 2. Stapsgewijze weergave van invoer, machine-learningmodel en overeenstemmende krommen voor gemeten en voorspelde oplosbaarheid bij stijgende temperatuur.

Een volledig nieuw verbinding voorspellen

De cruciale vraag was of het model een werkzame stof die het nog nooit had gezien aankon. Om dit te testen zetten de onderzoekers alle gegevens voor een vijfde verbinding, butamben, opzij en gebruikten die 50 metingen pas nadat de training was voltooid. De fouten van het model waren groter voor deze echte voorspellingsopdracht dan voor de data die het eerder had gezien, maar bleven binnen een bereik dat vergelijkbaar is met typische experimentele onzekerheid, vooral voor verschillende van de geteste vloeistoffen. Vergeleken met twee veelgebruikte semi-voorspellende thermodynamische methoden, Flory-Huggins en temperatuurafhankelijke NRTL-SAC, produceerde het XGBoost-model consequent kleinere fouten in het algemeen en presteerde het bijzonder goed voor de meest uitdagende systemen.

Wat dit betekent voor toekomstige geneesmiddelenontwikkeling

Voor niet-specialisten is de belangrijkste conclusie dat een relatief klein, fysisch geïnformeerd machine-learningmodel betrouwbaar kan inschatten hoe goed medicijnachtige moleculen oplossen in gangbare organische vloeistoffen over een temperatuurbereik. Het doet dit met een bescheiden set meetbare eigenschappen, zonder de zware parameterafstemming die vaak nodig is in traditionele benaderingen. Hoewel de auteurs opmerken dat verdere verfijning van de gekozen descriptoren en een bredere dataset de prestaties zou verbeteren, toont de studie aan dat zulke modellen nu al kunnen ondersteunen bij het selecteren van oplosmiddelen en procesontwerp, en chemici helpen veelbelovende opties te beperken voordat uitgebreid laboratoriumwerk wordt uitgevoerd.

Bronvermelding: Valavi, M., Assareh, M., Khoshsima, A. et al. Development and evaluation of an effective solubility prediction model for pharmaceuticals in organic solvents using machine learning based on eXtreme Gradient Boosting. Sci Rep 16, 16592 (2026). https://doi.org/10.1038/s41598-026-53038-w

Trefwoorden: oplosbaarheid van geneesmiddelen, organische oplosmiddelen, machine learning, XGBoost, kristallisatie