Clear Sky Science · ru
Набор данных значений растворимости органических соединений в бинарных смесях растворителей при различных температурах
Почему это важно для повседневной химии
Многие продукты, на которые мы полагаемся — от лекарств до пластиков и красок — зависят от того, насколько хорошо вещество растворяется в жидкости. В реальных промышленных условиях учёные редко работают с одним чистым растворителем; часто смешивают два жидкости, чтобы тонко настроить, сколько твёрдого вещества растворится. Измерять это для каждой новой пары соединение–растворитель медленно и трудозатратно. В этой статье представлен MixtureSolDB — большой, тщательно проверенный сборник экспериментальных данных, отражающий, как более восьмисот органических соединений растворяются во многих двухкомпонентных смесях растворителей в широком диапазоне температур. Такой ресурс призван ускорить исследования в разработке лекарств, создании материалов и экологичном производстве.

Большая карта того, как вещи растворяются
Авторы собрали 175 166 отдельных измерений растворимости для 810 органических соединений в 750 различных бинарных смесях растворителей, охватывающих 3 001 уникальную комбинацию растворимого вещества и смеси растворителей при температурах от 252 до 383 кельвин. Каждая точка данных фиксирует, сколько соединения может раствориться в данной паре растворителей при определённом соотношении компонентов и температуре. Во многих таких системах присутствует вода, смешанная с органической жидкостью, такой как спирт, ацетон или ацетонитрил, что отражает частое использование подобных смесей в лабораториях и промышленности. Опираясь на 1 115 рецензируемых статей, авторы существенно расширяют предыдущие публичные наборы данных, давая исследователям более широкую и разнообразную картину поведения растворимости.
Как собирали и очищали данные
Чтобы составить этот набор данных, команда сначала искала статьи в научных журналах с заголовками или аннотациями, содержащими фразы вроде «solubility + binary» или «solubility + mixture». Начиная с 5 775 записей, они удалили дубликаты и статьи без пригодных данных, затем вручную извлекли численные значения из 1 115 подходящих публикаций. В центр внимания попали органические соединения, органические соли и определённые солваты при нормальном давлении и без дополнительных примесей; при наличии полиморфов учитывали самые стабильные твердые формы. Структуры молекул растворимых веществ и растворителей перевели в стандартный текстовый формат SMILES, а названия растворителей унифицировали, чтобы избежать путаницы между синонимами.
Приведение чисел к сопоставимому виду
Сырые данные по растворимости могут быть представлены по-разному, например в виде мольной доли или граммов на количество растворителя, а доля каждого растворителя в смеси может задаваться по массе или по молям. Чтобы сделать данные согласованными и готовыми к моделированию, авторы преобразовали все измерения в несколько стандартных форм, включая массу, выраженную в граммах растворённого вещества на 100 граммов растворителя, и её десятичный логарифм — распространённый выбор в дата‑ориентированных исследованиях растворимости. Для этих преобразований использовали молярные массы, вычисленные с помощью открытого программного обеспечения для химии, в том числе для специальных случаев, таких как растворители на основе полиэтиленгликоля. Итоговая таблица также содержит подробные метаданные: температуру, состав пары растворителей, идентификаторы из публичных баз данных и отметку о том, одобрено ли соединение как лекарство Управлением по санитарному надзору США (FDA).

Проверка надёжности и исследование набора данных
Хотя исходные статьи уже проходили рецензирование, ручное копирование такого большого объёма чисел может порождать ошибки. Чтобы снизить этот риск, двое подготовленных химиков независимо извлекали данные, а третье лицо сравнило и объединило их результаты. Команда затем провела ряд автоматизированных проверок, искав невозможные значения, такие как растворимости, превышающие мольную долю единицы, или доли растворителей, которые не сходятся по сумме, а также сопоставляла температуры с известными точками кипения. Они также верифицировали литературные ссылки с помощью DOI и разрешали несоответствия, где одно и то же имя указывало на разные структуры или наоборот. Получившийся набор данных вместе с меньшей таблицей точек кипения растворителей доступен публично в виде простых CSV‑файлов и может просматриваться через интерактивный онлайн‑инструмент, позволяющий искать по названию соединения или структуре и фокусироваться на одобренных лекарствах.
Что это значит для будущих инструментов
Для химиков и дата‑сайентистов MixtureSolDB является ориентиром при создании и тестировании моделей, предсказывающих, сколько соединения растворится в смешанных растворителях без проведения новых экспериментов каждый раз. Большое количество точек данных и широкое разнообразие соединений и пар растворителей помогают методам машинного обучения выявлять более общие закономерности, а не подгонять модель под узкий набор случаев. Хотя авторы рекомендуют одну логарифмическую меру в качестве наиболее подходящей цели для сравнения разных систем, они также предоставляют более практичные значения, основанные на массе, для планирования работ в лаборатории. В конечном итоге этот набор данных должен помочь исследователям проектировать лучшие реакции, процессы кристаллизации и рецептуры, давая более быстрые и обоснованные способы выбора смесей растворителей.
Цитирование: Malikov, D., Krasnov, L., Kiseleva, M. et al. Dataset of solubility values for organic compounds in binary mixtures of solvents at various temperatures. Sci Data 13, 727 (2026). https://doi.org/10.1038/s41597-026-07047-z
Ключевые слова: растворимость, бинарные смеси растворителей, набор данных для машинного обучения, органические соединения, хемоинформатика