Clear Sky Science · ru

Набор данных значений растворимости органических соединений в бинарных смесях растворителей при различных температурах

· Назад к списку

Почему это важно для повседневной химии

Многие продукты, на которые мы полагаемся — от лекарств до пластиков и красок — зависят от того, насколько хорошо вещество растворяется в жидкости. В реальных промышленных условиях учёные редко работают с одним чистым растворителем; часто смешивают два жидкости, чтобы тонко настроить, сколько твёрдого вещества растворится. Измерять это для каждой новой пары соединение–растворитель медленно и трудозатратно. В этой статье представлен MixtureSolDB — большой, тщательно проверенный сборник экспериментальных данных, отражающий, как более восьмисот органических соединений растворяются во многих двухкомпонентных смесях растворителей в широком диапазоне температур. Такой ресурс призван ускорить исследования в разработке лекарств, создании материалов и экологичном производстве.

Figure 1. Множество молекул в многочисленных смешанных растворителях, собранных в единую большую карту того, насколько хорошо каждое соединение растворяется.
Figure 1. Множество молекул в многочисленных смешанных растворителях, собранных в единую большую карту того, насколько хорошо каждое соединение растворяется.

Большая карта того, как вещи растворяются

Авторы собрали 175 166 отдельных измерений растворимости для 810 органических соединений в 750 различных бинарных смесях растворителей, охватывающих 3 001 уникальную комбинацию растворимого вещества и смеси растворителей при температурах от 252 до 383 кельвин. Каждая точка данных фиксирует, сколько соединения может раствориться в данной паре растворителей при определённом соотношении компонентов и температуре. Во многих таких системах присутствует вода, смешанная с органической жидкостью, такой как спирт, ацетон или ацетонитрил, что отражает частое использование подобных смесей в лабораториях и промышленности. Опираясь на 1 115 рецензируемых статей, авторы существенно расширяют предыдущие публичные наборы данных, давая исследователям более широкую и разнообразную картину поведения растворимости.

Как собирали и очищали данные

Чтобы составить этот набор данных, команда сначала искала статьи в научных журналах с заголовками или аннотациями, содержащими фразы вроде «solubility + binary» или «solubility + mixture». Начиная с 5 775 записей, они удалили дубликаты и статьи без пригодных данных, затем вручную извлекли численные значения из 1 115 подходящих публикаций. В центр внимания попали органические соединения, органические соли и определённые солваты при нормальном давлении и без дополнительных примесей; при наличии полиморфов учитывали самые стабильные твердые формы. Структуры молекул растворимых веществ и растворителей перевели в стандартный текстовый формат SMILES, а названия растворителей унифицировали, чтобы избежать путаницы между синонимами.

Приведение чисел к сопоставимому виду

Сырые данные по растворимости могут быть представлены по-разному, например в виде мольной доли или граммов на количество растворителя, а доля каждого растворителя в смеси может задаваться по массе или по молям. Чтобы сделать данные согласованными и готовыми к моделированию, авторы преобразовали все измерения в несколько стандартных форм, включая массу, выраженную в граммах растворённого вещества на 100 граммов растворителя, и её десятичный логарифм — распространённый выбор в дата‑ориентированных исследованиях растворимости. Для этих преобразований использовали молярные массы, вычисленные с помощью открытого программного обеспечения для химии, в том числе для специальных случаев, таких как растворители на основе полиэтиленгликоля. Итоговая таблица также содержит подробные метаданные: температуру, состав пары растворителей, идентификаторы из публичных баз данных и отметку о том, одобрено ли соединение как лекарство Управлением по санитарному надзору США (FDA).

Figure 2. Изменение соотношения двух растворителей вокруг молекулы, показывающее, как её растворимость шаг за шагом повышается или понижается.
Figure 2. Изменение соотношения двух растворителей вокруг молекулы, показывающее, как её растворимость шаг за шагом повышается или понижается.

Проверка надёжности и исследование набора данных

Хотя исходные статьи уже проходили рецензирование, ручное копирование такого большого объёма чисел может порождать ошибки. Чтобы снизить этот риск, двое подготовленных химиков независимо извлекали данные, а третье лицо сравнило и объединило их результаты. Команда затем провела ряд автоматизированных проверок, искав невозможные значения, такие как растворимости, превышающие мольную долю единицы, или доли растворителей, которые не сходятся по сумме, а также сопоставляла температуры с известными точками кипения. Они также верифицировали литературные ссылки с помощью DOI и разрешали несоответствия, где одно и то же имя указывало на разные структуры или наоборот. Получившийся набор данных вместе с меньшей таблицей точек кипения растворителей доступен публично в виде простых CSV‑файлов и может просматриваться через интерактивный онлайн‑инструмент, позволяющий искать по названию соединения или структуре и фокусироваться на одобренных лекарствах.

Что это значит для будущих инструментов

Для химиков и дата‑сайентистов MixtureSolDB является ориентиром при создании и тестировании моделей, предсказывающих, сколько соединения растворится в смешанных растворителях без проведения новых экспериментов каждый раз. Большое количество точек данных и широкое разнообразие соединений и пар растворителей помогают методам машинного обучения выявлять более общие закономерности, а не подгонять модель под узкий набор случаев. Хотя авторы рекомендуют одну логарифмическую меру в качестве наиболее подходящей цели для сравнения разных систем, они также предоставляют более практичные значения, основанные на массе, для планирования работ в лаборатории. В конечном итоге этот набор данных должен помочь исследователям проектировать лучшие реакции, процессы кристаллизации и рецептуры, давая более быстрые и обоснованные способы выбора смесей растворителей.

Цитирование: Malikov, D., Krasnov, L., Kiseleva, M. et al. Dataset of solubility values for organic compounds in binary mixtures of solvents at various temperatures. Sci Data 13, 727 (2026). https://doi.org/10.1038/s41597-026-07047-z

Ключевые слова: растворимость, бинарные смеси растворителей, набор данных для машинного обучения, органические соединения, хемоинформатика