Clear Sky Science · ru

Разработка и оценка эффективной модели предсказания растворимости фармацевтических веществ в органических растворителях с использованием машинного обучения на базе eXtreme Gradient Boosting

· Назад к списку

Почему растворимость лекарств действительно важна

Когда таблетка попадает в организм, активному веществу сначала нужно раствориться, чтобы подействовать. Легкость, с которой действующее вещество растворяется в жидкости, влияет на способ производства препарата, его стабильность и эффективность. Измерение этой «растворимости» в множестве различных жидкостей и при разных температурах занимает много времени и дорого. В этом исследовании изучается, как современный инструмент данных — машинное обучение — может помочь учёным быстро оценить, насколько хорошо подобные лекарствам соединения растворяются в распространённых органических жидкостях, используя лишь небольшой набор легко доступной информации.

Выбор подходящей жидкости для выращивания кристаллов

В производстве лекарств часто выращивают кристаллы действующего вещества из органического растворителя. Растворитель не только определяет, какое количество твёрдого вещества удастся получить; он также формирует размер и морфологию кристаллов, что в свою очередь влияет на поведение препарата. Традиционно химики проводят множество экспериментов или используют сложные термодинамические уравнения для предсказания растворимости. Эти устоявшиеся методы могут быть точными, но зачастую требуют подгонки большого числа параметров или детальных молекулярных данных, которые недоступны на ранних этапах разработки. Авторы этой работы поставили другой вопрос: может ли тщательно спроектированная модель машинного обучения уловить ключевые закономерности растворимости при сохранении простоты и физического смысла входных данных.

Figure 1. Как компактная модель машинного обучения связывает базовые свойства лекарства и растворителя с растворимостью в различных органических жидкостях.
Figure 1. Как компактная модель машинного обучения связывает базовые свойства лекарства и растворителя с растворимостью в различных органических жидкостях.

Компактная модель, основанная на данных и физике

Команда построила модель предсказания растворимости, используя популярный метод машинного обучения eXtreme Gradient Boosting (XGBoost). Они собрали опубликованные данные по растворимости четырёх аналогичных лекарственным молекул в девяти распространённых органических растворителях в широком диапазоне температур, что дало 224 измерения. Вместо того чтобы кормить алгоритм произвольными дескрипторами, они выбрали десять признаков, которые химики хорошо понимают: свойства твёрдого вещества (такие как температура плавления, теплота плавления, теплоёмкость и известный параметр растворимости), базовые свойства жидкости (полярность через диэлектрическую постоянную и температура кипения), а также сама температура и простые кодировки названий твёрдого вещества и растворителя. Чтобы учесть тот факт, что большинство твёрдых веществ растворяются лучше при нагревании, в модель встроили правило, заставляющее предсказания возрастать с температурой, обеспечивая физически разумное поведение.

Насколько хорошо модель соответствует реальным измерениям

После настройки модели с помощью перекрёстной проверки авторы проверили, насколько близко предсказания соответствуют измеренным значениям. Для оценки эффективности они сравнивали логарифмы измеренной и предсказанной растворимости, что удобно, поскольку растворимости охватывали несколько порядков величины. Для четырёх соединений, использованных при обучении и тестировании, модель воспроизвела данные с очень малыми средними ошибками и высокой корреляцией, что указывает на способность надёжно описывать температурно-зависимую растворимость в разных жидкостях. Важно, что модель оставалась точной даже для очень плохо растворимого соединения рисперидона, поведение которого традиционно трудно описать простыми уравнениями.

Figure 2. Пошаговая схема входных данных, модели машинного обучения и сопоставления кривых измеренной и предсказанной растворимости при повышении температуры.
Figure 2. Пошаговая схема входных данных, модели машинного обучения и сопоставления кривых измеренной и предсказанной растворимости при повышении температуры.

Предсказание полностью нового соединения

Ключевой вопрос заключался в том, сможет ли модель справиться с действующим веществом, которого она никогда не видела. Чтобы проверить это, исследователи отложили все данные по пятому соединению, бутамбену, и использовали эти 50 измерений только после завершения обучения. Ошибки модели в этой задаче истинного предсказания были больше, чем для данных, с которыми она уже сталкивалась, но всё же оставались в пределах, сопоставимых с типичной экспериментальной неопределённостью, особенно для ряда протестированных растворителей. В сравнении с двумя широко используемыми полупредиктивными термодинамическими методами — Flory–Huggins и температурнозависимым NRTL‑SAC — модель XGBoost систематически давала меньшие ошибки в целом и особенно хорошо проявляла себя в наиболее сложных системах.

Что это означает для будущей разработки лекарств

Для неспециалистов главный вывод такой: относительно небольшая модель машинного обучения с учётом физических соображений может надёжно оценивать, насколько хорошо молекулы, похожие на лекарственные, растворяются в распространённых органических растворителях в зависимости от температуры. Она делает это, используя умеренный набор измеримых свойств, без тяжёлой подгонки параметров, часто требуемой в традиционных подходах. Авторы отмечают, что дальнейшая доработка выбранных дескрипторов и расширение объёма данных улучшат точность, но исследование показывает, что такие модели уже сейчас могут помогать при подборе растворителей и проектировании процессов, позволяя химикам сузить круг перспективных вариантов до проведения подробных лабораторных работ.

Цитирование: Valavi, M., Assareh, M., Khoshsima, A. et al. Development and evaluation of an effective solubility prediction model for pharmaceuticals in organic solvents using machine learning based on eXtreme Gradient Boosting. Sci Rep 16, 16592 (2026). https://doi.org/10.1038/s41598-026-53038-w

Ключевые слова: растворимость лекарств, органические растворители, машинное обучение, XGBoost, кристаллизация