Clear Sky Science · pl

Zbiór danych wartości rozpuszczalności związków organicznych w binarnych mieszaninach rozpuszczalników w różnych temperaturach

· Powrót do spisu

Dlaczego to ma znaczenie dla codziennej chemii

Wiele produktów, na których polegamy — od leków po tworzywa sztuczne i farby — zależy od tego, jak dobrze substancja rozpuszcza się w cieczy. W praktyce przemysłowej naukowcy rzadko pracują na pojedynczym czystym rozpuszczalniku; często mieszają dwa płyny, aby precyzyjnie dopasować ilość rozpuszczonego ciała stałego. Pomiar tego dla każdego nowego związku i pary rozpuszczalników jest powolny i pracochłonny. W artykule przedstawiono MixtureSolDB, duży, starannie zweryfikowany zbiór danych eksperymentalnych, który opisuje, jak ponad osiemset związków organicznych rozpuszcza się w setkach różnych dwu­składnikowych mieszanin rozpuszczalników w szerokim zakresie temperatur. Takie źródło ma przyspieszyć badania w zakresie opracowywania leków, projektowania materiałów i ekologicznej produkcji.

Figure 1. Wiele cząsteczek w wielu mieszanych rozpuszczalnikach tworzą jeden wielki obraz tego, jak dobrze każdy związek się rozpuszcza.
Figure 1. Wiele cząsteczek w wielu mieszanych rozpuszczalnikach tworzą jeden wielki obraz tego, jak dobrze każdy związek się rozpuszcza.

Wielka mapa rozpuszczalności

Autorzy zgromadzili 175 166 pojedynczych pomiarów rozpuszczalności dla 810 związków organicznych w 750 różnych binarnych mieszaninach rozpuszczalników, obejmujących 3 001 odrębnych kombinacji substancji rozpuszczonej i mieszanych rozpuszczalników w zakresie od 252 do 383 kelwinów. Każdy punkt danych rejestruje, ile danego związku może się rozpuścić w określonej parze rozpuszczalników przy danym stosunku mieszaniny i temperaturze. Wiele z tych układów obejmuje wodę zmieszaną z cieczą organiczną, taką jak alkohol, aceton czy acetonitryl, co odzwierciedla częste zastosowanie takich mieszanin w laboratoriach i przemyśle. Bazując na 1 115 recenzowanych artykułach, autorzy znacznie rozszerzają wcześniejsze publiczne zbiory danych, dając badaczom znacznie szerszy i bardziej zróżnicowany obraz zachowania rozpuszczalności.

Jak zbierano i oczyszczano dane

Aby stworzyć ten zbiór danych, zespół najpierw przeszukał czasopisma naukowe pod kątem artykułów, których tytuły lub streszczenia zawierały frazy takie jak „rozpuszczalność + binarne” lub „rozpuszczalność + mieszanina”. Rozpoczynając od 5 775 rekordów, usunęli duplikaty i prace bez użytecznych danych, a następnie ręcznie wydobyli wartości liczbowe z 1 115 odpowiednich artykułów. Skoncentrowali się na związkach organicznych, solach organicznych i zdefiniowanych solwatach, przy normalnym ciśnieniu i bez dodatkowych dodatków, oraz zapewnili, że formy stałe były najstabilniejszymi, gdy występowały polimorfy. Struktury molekularne rozpuszczalnych substancji i rozpuszczalników przetłumaczono na standardowy tekstowy format zwany SMILES, a konwencje nazewnicze rozpuszczalników ujednolicono, aby uniknąć nieporozumień wynikających z synonimów.

Ujednolicanie wartości między systemami

Surowe dane o rozpuszczalności mogą być raportowane na wiele sposobów, np. jako ułamek molowy lub gramy na ilość rozpuszczalnika, a udział każdego rozpuszczalnika w mieszaninie może być podawany masowo lub molowo. Aby dane były spójne i gotowe do modelowania, autorzy skonwertowali wszystkie pomiary do kilku standardowych form, w tym wartości masowej wyrażonej jako gramy substancji rozpuszczonej na 100 gramów rozpuszczalnika oraz jej logarytm dziesiętny, co jest powszechnym wyborem w badaniach opartych na danych o rozpuszczalności. Do przeprowadzenia tych konwersji użyli mas cząsteczkowych obliczonych przez otwarte oprogramowanie chemiczne, także w szczególnych przypadkach, takich jak rozpuszczalniki oparte na glikolu polietylenowym. Końcowa tabela zawiera również szczegółowe metadane: temperaturę, skład pary rozpuszczalników, identyfikatory z publicznych baz danych oraz informację, czy związek jest zatwierdzony jako lek przez amerykańską Agencję Żywności i Leków (FDA).

Figure 2. Zmienianie stosunku dwóch rozpuszczalników wokół cząsteczki, aby pokazać, jak jej rozpuszczalność stopniowo rośnie lub maleje.
Figure 2. Zmienianie stosunku dwóch rozpuszczalników wokół cząsteczki, aby pokazać, jak jej rozpuszczalność stopniowo rośnie lub maleje.

Sprawdzanie wiarygodności i eksploracja zbioru

Chociaż źródłowe artykuły były już recenzowane, ręczne przepisywanie tak wielu liczb może wprowadzać błędy. Aby zredukować to ryzyko, dwaj wyszkoleni chemicy niezależnie wydobyli dane, a trzecia osoba porównała i scaliła ich wyniki. Zespół uruchomił następnie serię automatycznych kontroli, poszukując niemożliwych wartości, takich jak rozpuszczalności większe niż ułamek molowy równy jeden czy udziały rozpuszczalników, które nie sumowały się poprawnie, oraz krzyżowo weryfikował temperatury względem znanych punktów wrzenia. Sprawdzili również odniesienia literaturowe przy użyciu identyfikatorów DOI i rozwiązywali niezgodności, gdy ta sama nazwa odnosiła się do różnych struktur lub odwrotnie. Powstały zbiór danych, wraz z mniejszą tabelą punktów wrzenia rozpuszczalników, jest publicznie dostępny jako proste pliki rozdzielane przecinkami i można go przeglądać przez interaktywne narzędzie online, które pozwala wyszukiwać po nazwie związku lub strukturze oraz koncentrować się na zatwierdzonych lekach.

Co to oznacza dla przyszłych narzędzi

Dla chemików i specjalistów od danych MixtureSolDB oferuje punkt odniesienia do budowy i testowania modeli przewidujących, ile związku rozpuści się w mieszanych rozpuszczalnikach bez potrzeby przeprowadzania nowych eksperymentów za każdym razem. Duża liczba punktów danych oraz szeroka różnorodność związków i par rozpuszczalników pomagają metodom uczenia maszynowego wychwycić bardziej ogólne wzorce zamiast nadmiernego dopasowania do wąskiego zestawu przypadków. Choć autorzy rekomendują jedną miarę logarytmiczną jako najbardziej odpowiedni cel porównywania różnych systemów, udostępniają też praktyczne wartości masowe do planowania rzeczywistych eksperymentów w laboratorium. Ostatecznie ten zbiór danych powinien pomóc badaczom w projektowaniu lepszych reakcji, procesów krystalizacji i formulacji, dając szybsze i bardziej świadome narzędzia do wyboru mieszanin rozpuszczalników.

Cytowanie: Malikov, D., Krasnov, L., Kiseleva, M. et al. Dataset of solubility values for organic compounds in binary mixtures of solvents at various temperatures. Sci Data 13, 727 (2026). https://doi.org/10.1038/s41597-026-07047-z

Słowa kluczowe: rozpuszczalność, binarne mieszaniny rozpuszczalników, zbiór danych dla uczenia maszynowego, związki organiczne, cheminformatyka