Clear Sky Science · zh

使用基于eXtreme Gradient Boosting的机器学习在有机溶剂中开发和评估药物溶解度有效预测模型

· 返回目录

为什么药物的溶解很重要

当一片药片进入体内时,活性成分必须先溶解才能发挥作用。活性成分在液体中的溶解容易程度影响药品的制备方式、稳定性以及疗效。在多种液体和温度下测量这种“溶解度”既缓慢又昂贵。本研究探讨了现代数据工具——机器学习——如何帮助科学家使用少量易得的信息,快速估算药物类化合物在常见有机溶剂中的溶解性。

为结晶选择合适的溶剂

在药物生产中,常常从有机溶剂中生长活性成分的晶体。溶剂不仅决定固体回收量,还影响晶体的尺寸与形态,而这些又会影响药物的性能。传统上,化学家要么进行大量实验,要么使用复杂的热力学方程来预测溶解度。这些方法虽然可以准确,但通常需要大量拟合参数或早期开发阶段难以获得的详细分子数据。本文作者则提出,是否可以通过精心设计的机器学习模型,在保持输入简单且具物理意义的前提下,把握溶解度的主要趋势。

Figure 1. 一个紧凑的机器学习模型如何将基本药物和溶剂属性与多种有机液体中的溶解度联系起来。
Figure 1. 一个紧凑的机器学习模型如何将基本药物和溶剂属性与多种有机液体中的溶解度联系起来。

兼具物理直觉的紧凑数据驱动模型

研究团队使用一种流行的机器学习方法——eXtreme Gradient Boosting(XGBoost)构建了溶解度预测模型。他们收集了四种药物类分子在九种常见有机溶剂中、跨越较宽温度范围的已发表溶解度数据,共计224个数据点。与其向算法输入任意描述符,他们选择了化学家已熟悉的十个特征:固体性质(如熔点、熔融热、热容和一个知名的溶解度参数)、基本液体属性(通过介电常数表征的极性和沸点)、温度本身以及固体和溶剂名称的简单编码。为反映大多数固体随升温溶解度增加的事实,他们还在模型中加入了一条规则,强制预测随温度上升,从而保证物理上合理的行为。

模型与实际测量的匹配程度

在使用交叉验证调整模型后,作者测试了预测与实测值的接近程度。他们通过比较实测和预测溶解度的对数来评价性能,这种做法适合于溶解度跨越数量级的情况。对于用于训练和测试的四种化合物,模型以很小的平均误差和很高的相关性再现了数据,表明它能够可靠地描述在多种溶剂环境中的温度依赖溶解度。值得注意的是,即便是对溶解性极差、行为难以用简单方程捕捉的利培酮(risperidone),模型仍保持了准确性。

Figure 2. 输入、机器学习模型以及随温度升高测量和预测溶解度曲线匹配的分步视图。
Figure 2. 输入、机器学习模型以及随温度升高测量和预测溶解度曲线匹配的分步视图。

预测全新化合物的能力

关键问题是模型是否能处理从未见过的活性成分。为此,研究者将第五种化合物布他美(butamben)的全部数据留作外部测试,这50个测量值仅在训练完成后用于验证。这一真实预测任务中的误差比模型已见数据时更大,但仍处于与典型实验不确定性相当的范围内,尤其是在若干测试溶剂中。与两种广泛使用的半经验热力学方法(Flory–Huggins 与温度依赖的NRTL-SAC)相比,XGBoost模型总体上产生了更小的误差,并在最具挑战性的体系中表现尤为出色。

对未来药物开发的意义

对非专业读者来说,关键结论是:一个相对小规模且具有物理启发的机器学习模型,能够可靠地估算药物类分子在常见有机溶剂中随温度变化的溶解度。它使用一组适度可测的性质,而无需传统方法中常见的大量参数拟合。作者指出,进一步改进所选描述符并扩展数据集会提升性能,但该研究已表明此类模型能在溶剂筛选和工艺设计中提供支持,帮助化学家在开展详细实验之前缩小可行选项范围。

引用: Valavi, M., Assareh, M., Khoshsima, A. et al. Development and evaluation of an effective solubility prediction model for pharmaceuticals in organic solvents using machine learning based on eXtreme Gradient Boosting. Sci Rep 16, 16592 (2026). https://doi.org/10.1038/s41598-026-53038-w

关键词: 药物溶解度, 有机溶剂, 机器学习, XGBoost, 结晶