Clear Sky Science · sv

Utveckling och utvärdering av en effektiv modell för löslighetsprognoser för läkemedel i organiska lösningsmedel med maskininlärning baserad på eXtreme Gradient Boosting

2026-05-28 · Tillbaka till index

Varför läkemedelsupplösning verkligen spelar roll

När en tablett når kroppen måste den först lösa sig innan den kan ha effekt. Hur lätt en aktiv substans löser sig i en vätska påverkar hur ett läkemedel tillverkas, hur stabilt det är och hur väl det fungerar. Att mäta denna ”löslighet” i många olika vätskor och temperaturer är tidskrävande och kostsamt. Denna studie undersöker hur ett modernt dataverktyg, maskininlärning, kan hjälpa forskare att snabbt uppskatta hur väl läkemedelslika föreningar löser sig i vanliga organiska vätskor, med endast en liten mängd lättillgänglig information.

Att välja rätt vätska för kristalltillväxt

Vid läkemedelstillverkning framodlar tillverkare ofta kristaller av en aktiv substans från ett organiskt lösningsmedel. Lösningsmedlet styr inte bara hur mycket fast material som återfås; det påverkar även kristallernas storlek och form, vilket i sin tur kan påverka läkemedlets egenskaper. Traditionellt utför kemister antingen många experiment eller använder komplexa termodynamiska ekvationer för att förutsäga löslighet. Dessa etablerade metoder kan vara exakta men kräver ofta många inpassade parametrar eller detaljerade molekylära data som inte finns i tidig utveckling. Författarna till detta arbete frågar istället om en noggrant utformad maskininlärningsmodell kan fånga huvudtrenderna i löslighet samtidigt som den bygger på enkla, fysikaliskt meningsfulla indata.

Figure 1. Hur en kompakt maskininlärningsmodell kopplar grundläggande egenskaper hos läkemedel och lösningsmedel till löslighet över många organiska vätskor.

En kompakt datadriven modell med fysisk insikt

Teamet byggde en modell för löslighetsprognoser med en populär maskininlärningsmetod kallad eXtreme Gradient Boosting, eller XGBoost. De samlade publicerade löslighetsdata för fyra läkemedelslika molekyler i nio vanliga organiska vätskor över ett stort temperaturspann och erhöll 224 datapunkter. Istället för att mata algoritmen med godtyckliga deskriptorer valde de tio variabler som kemister redan förstår: egenskaper hos det fasta ämnet (såsom smältpunkt, smältvärme, värmekapacitet och en välkänd löslighetsparameter), grundläggande vätskegenskaper (polaritet via dielektricitetskonstant och kokpunkt) plus temperaturen i sig och enkla kodningar av namnen på det fasta ämnet och lösningsmedlet. För att återspegla att de flesta fasta ämnen löser sig bättre vid uppvärmning byggde de in en regel som tvingar modellens prediktioner att öka med temperaturen, vilket säkerställer fysikaliskt rimligt beteende.

Hur väl modellen överensstämmer med verkliga mätningar

Efter att ha finjusterat modellen med korsvalidering testade författarna hur väl prediktionerna stämde överens med uppmätta värden. De utvärderade prestanda genom att jämföra logaritmen av uppmätt och predikterad löslighet, vilket är lämpligt eftersom lösligheterna spände över flera storleksordningar. För de fyra föreningarna som användes för träning och test reproducerade modellen data med mycket små genomsnittliga fel och hög korrelation, vilket indikerar att den kan beskriva temperaturberoende löslighet i många vätskemiljöer på ett pålitligt sätt. Viktigt är att modellen förblev noggrann även för en mycket svårlöslig förening, risperidon, vars beteende är notoriskt svårt att fånga med enklare ekvationer.

Figure 2. Stegvis vy av ingångsdata, maskininlärningsmodell och matchande kurvor för uppmätt och predikterad löslighet vid stigande temperatur.

Att förutsäga en helt ny förening

Den avgörande frågan var om modellen kunde hantera en aktiv substans den aldrig sett tidigare. För att testa detta satte forskarna åt sidan all data för en femte förening, butamben, och använde dessa 50 mätningar först efter träningen var klar. Modellens fel var större för denna verkliga prediktionsuppgift än för de data den sett tidigare, men höll sig ändå inom ett intervall jämförbart med typisk experimentell osäkerhet, särskilt för flera av de testade vätskorna. Jämfört med två vida använda semi-prediktiva termodynamiska metoder, Flory–Huggins och temperaturberoende NRTL-SAC, gav XGBoost-modellen konsekvent mindre fel i genomsnitt och presterade särskilt väl för de mest utmanande systemen.

Vad detta betyder för framtida läkemedelsutveckling

För icke-specialister är huvudbudskapet att en relativt liten, fysikaliskt informerad maskininlärningsmodell kan pålitligt uppskatta hur väl läkemedelslika molekyler löser sig i vanliga organiska vätskor över ett temperaturspann. Den gör detta med en måttlig uppsättning mätbara egenskaper, utan den omfattande parameteranpassning som ofta krävs i traditionella tillvägagångssätt. Författarna noterar att ytterligare förfining av de valda deskriptorerna och bredare dataunderlag skulle förbättra prestandan, men studien visar att sådana modeller redan kan stödja val av lösningsmedel och processdesign och hjälpa kemister att snäva in lovande alternativ innan detaljerade laboratorieundersökningar genomförs.

Citering: Valavi, M., Assareh, M., Khoshsima, A. et al. Development and evaluation of an effective solubility prediction model for pharmaceuticals in organic solvents using machine learning based on eXtreme Gradient Boosting. Sci Rep 16, 16592 (2026). https://doi.org/10.1038/s41598-026-53038-w

Nyckelord: läkemedelslöslighet, organiska lösningsmedel, maskininlärning, XGBoost, kristallisation