Clear Sky Science · sv
Databas med löslighetsvärden för organiska föreningar i binära lösningsmedelsblandningar vid olika temperaturer
Varför detta spelar roll för vardagens kemi
Många produkter vi är beroende av, från läkemedel till plaster och färger, beror på hur väl ett ämne löser sig i en vätska. I verkliga industriella miljöer arbetar forskare sällan med ett enda rent lösningsmedel; de blandar ofta två vätskor för att finjustera hur mycket av ett fast ämne som kommer att lösas. Att mäta detta för varje ny förening och lösningsmedelspair är långsamt och arbetsintensivt. Denna artikel introducerar MixtureSolDB, en stor, noggrant kontrollerad samling experimentella data som fångar hur mer än åttahundra organiska föreningar löser sig i hundratals olika två-lösningsmedelsblandningar över ett brett temperaturintervall. En sådan resurs är utformad för att påskynda forskning inom läkemedelsutveckling, materialdesign och grön tillverkning.

En stor karta över hur saker löser sig
Författarna samlade 175 166 individuella mätningar av löslighet för 810 organiska föreningar i 750 olika binära lösningsmedelsblandningar, omfattande 3 001 distinkta kombinationer av löst ämne och blandade lösningsmedel mellan 252 och 383 kelvin. Varje datapunkt registrerar hur mycket av en förening som kan lösas i ett givet par av lösningsmedel vid en viss blandningskvot och temperatur. Många av dessa system inkluderar vatten blandat med en organisk vätska såsom en alkohol, aceton eller acetonitril, vilket speglar hur ofta sådana blandningar används i laboratorier och industri. Genom att hämta data från 1 115 granskade artiklar utökar författarna avsevärt tidigare offentliga dataset och ger forskare en mycket bredare och mer varierad bild av löslighetsbeteenden.
Hur data samlades in och rengjordes
För att sammanställa detta dataset sökte teamet först i vetenskapliga tidskrifter efter artiklar vars titlar eller abstrakt innehöll fraser som "löslighet + binär" eller "löslighet + blandning." Från ett startantal på 5 775 poster tog de bort dubbletter och artiklar utan användbara data, och extraherade sedan manuellt numeriska värden från 1 115 lämpliga artiklar. De fokuserade på organiska föreningar, organiska salter och definierade solvater, under normalt tryck och utan tillsatta tillsatser, och säkerställde att fasta former var de mest stabila när polymorfer var involverade. Molekylstrukturer för lösta ämnen och lösningsmedel översattes till ett standardiserat textbaserat format kallat SMILES, och namngivningskonventioner för lösningsmedel enhetliggjordes för att undvika förväxling mellan synonymer.
Göra siffror jämförbara mellan system
Råa löslighetsdata kan rapporteras på många sätt, såsom molfraktion eller gram per mängd lösningsmedel, och andelen av varje lösningsmedel i en blandning kan anges efter massa eller mol. För att göra data konsekventa och redo för modellering konverterade författarna alla mätningar till flera standardformer, inklusive ett massbaserat värde uttryckt som gram löst ämne per 100 gram lösningsmedel och dess decimallogaritm, ett vanligt val i datadrivna löslighetsstudier. De använde molekylvikter beräknade av öppen-källkods kemiprogramvara för att genomföra dessa omvandlingar, även för specialfall såsom lösningsmedel baserade på polyetylenglykol. Sluttabellen registrerar också detaljerad metadata: temperaturen, sammansättningen av lösningsmedelsparet, identifierare från offentliga databaser och huruvida en förening är godkänd som läkemedel av U.S. Food and Drug Administration.

Kontrollera tillförlitlighet och utforska datasetet
Även om källartiklarna redan var granskade i fackgranskning kan manuell avskrift av så många siffror introducera fel. För att minska denna risk extraherade två utbildade kemister oberoende data och en tredje person jämförde och slog ihop deras resultat. Teamet körde sedan en serie automatiserade kontroller, letade efter omöjliga värden såsom lösligheter större än en molfraktion av ett eller lösningsmedelsfraktioner som inte summerade korrekt, och korskontrollerade temperaturer mot kända kokpunkter. De verifierade också litteraturreferenser med digitala objektidentifierare och löste inkonsekvenser där samma namn pekade på olika strukturer eller vice versa. Det resulterande datasetet, tillsammans med en mindre tabell över lösningsmedelskokpunkter, är offentligt tillgängligt som enkla kommate separerade filer och kan bläddras via ett interaktivt webbaserat verktyg som tillåter användare att söka efter föreningsnamn eller struktur och att fokusera på godkända läkemedel.
Vad detta betyder för framtida verktyg
För kemister och datavetare erbjuder MixtureSolDB en referensresurs för att bygga och testa modeller som förutspår hur mycket av en förening som kommer att lösa sig i blandade lösningsmedel utan att göra nya experiment varje gång. Det stora antalet datapunkter och den stora variationen av föreningar och lösningsmedelspair hjälper maskininlärningsmetoder att lära sig mer generella mönster istället för att överanpassa sig till en snäv uppsättning fall. Medan författarna rekommenderar en logaritmisk måttstock som det mest lämpliga målet för att jämföra olika system, tillhandahåller de också mer praktiska massbaserade värden för verklig planering i labbet. I slutändan bör detta dataset hjälpa forskare att designa bättre reaktioner, kristallisationsprocesser och formuleringar genom att ge snabbare, mer informerade sätt att välja lösningsmedelsblandningar.
Citering: Malikov, D., Krasnov, L., Kiseleva, M. et al. Dataset of solubility values for organic compounds in binary mixtures of solvents at various temperatures. Sci Data 13, 727 (2026). https://doi.org/10.1038/s41597-026-07047-z
Nyckelord: löslighet, binära lösningsmedelsblandningar, maskininlärningsdataset, organiska föreningar, kemiformatik