Clear Sky Science · es

Desarrollo y evaluación de un modelo eficaz de predicción de solubilidad para fármacos en disolventes orgánicos utilizando aprendizaje automático basado en eXtreme Gradient Boosting

· Volver al índice

Por qué disolver los medicamentos es realmente importante

Cuando una pastilla entra en el cuerpo, primero debe disolverse antes de poder ejercer su efecto. La facilidad con la que un ingrediente activo se disuelve en un líquido influye en cómo se fabrica un medicamento, en su estabilidad y en su eficacia. Medir esta “solubilidad” en muchos líquidos y temperaturas es lento y costoso. Este estudio explora cómo una herramienta moderna de datos, el aprendizaje automático, puede ayudar a los científicos a estimar rápidamente cuán bien se disuelven compuestos tipo fármaco en disolventes orgánicos comunes, usando solo una pequeña cantidad de información fácil de obtener.

Elegir el disolvente adecuado para formar cristales

En la fabricación de fármacos, los productores a menudo hacen crecer cristales del ingrediente activo a partir de un disolvente orgánico. El disolvente no solo controla cuánto sólido se recupera; también determina el tamaño y la forma de los cristales, lo que a su vez puede influir en el comportamiento del medicamento. Tradicionalmente, los químicos realizan muchos experimentos o utilizan ecuaciones termodinámicas complejas para predecir la solubilidad. Estos métodos establecidos pueden ser precisos pero a menudo requieren muchos parámetros ajustados o datos moleculares detallados que no están disponibles en las etapas iniciales del desarrollo. Los autores de este trabajo preguntan en su lugar si un modelo de aprendizaje automático cuidadosamente diseñado puede captar las tendencias clave de la solubilidad manteniéndose anclado en entradas simples y físicamente significativas.

Figure 1. Cómo un modelo compacto de aprendizaje automático conecta propiedades básicas del fármaco y del disolvente con la solubilidad en múltiples líquidos orgánicos.
Figure 1. Cómo un modelo compacto de aprendizaje automático conecta propiedades básicas del fármaco y del disolvente con la solubilidad en múltiples líquidos orgánicos.

Un modelo compacto impulsado por datos con sentido físico

El equipo construyó un modelo de predicción de solubilidad usando un método popular de aprendizaje automático llamado eXtreme Gradient Boosting, o XGBoost. Reunieron datos publicados de solubilidad para cuatro moléculas tipo fármaco en nueve disolventes orgánicos comunes, a lo largo de un amplio intervalo de temperaturas, obteniendo 224 puntos de datos. En lugar de alimentar al algoritmo con descriptores arbitrarios, seleccionaron diez características que los químicos ya comprenden: propiedades del sólido (como temperatura de fusión, calor de fusión, capacidad calorífica y un parámetro de solubilidad bien conocido), propiedades básicas del líquido (polaridad a través de la constante dieléctrica y temperatura de ebullición), además de la propia temperatura y codificaciones simples de los nombres del sólido y del líquido. Para reflejar el hecho de que la mayoría de los sólidos se disuelven mejor al calentarse, incorporaron una regla que obliga a las predicciones del modelo a aumentar con la temperatura, asegurando un comportamiento físicamente sensato.

Qué tan bien el modelo coincide con las mediciones reales

Tras ajustar el modelo mediante validación cruzada, los autores evaluaron cuán de cerca las predicciones se ajustaban a los valores medidos. Evaluaron el rendimiento comparando el logaritmo de las solubilidades medidas y predichas, lo cual es apropiado porque las solubilidades abarcaron varios órdenes de magnitud. Para los cuatro compuestos usados en entrenamiento y prueba, el modelo reprodujo los datos con errores medios muy pequeños y alta correlación, lo que indica que puede describir de forma fiable la solubilidad dependiente de la temperatura en diversos entornos líquidos. Es importante destacar que el modelo permaneció preciso incluso para un compuesto muy poco soluble, risperidona, cuyo comportamiento es notoriamente difícil de capturar con ecuaciones más simples.

Figure 2. Visión por etapas de las entradas, el modelo de aprendizaje automático y las curvas coincidentes de solubilidad medida y predicha con el aumento de la temperatura.
Figure 2. Visión por etapas de las entradas, el modelo de aprendizaje automático y las curvas coincidentes de solubilidad medida y predicha con el aumento de la temperatura.

Predecir un compuesto completamente nuevo

La cuestión crucial era si el modelo podría manejar un ingrediente activo que nunca había visto. Para probarlo, los investigadores reservaron todos los datos de un quinto compuesto, butamben, y usaron esas 50 mediciones solo después de completar el entrenamiento. Los errores del modelo fueron mayores en esta tarea de predicción verdadera que para los datos vistos durante el entrenamiento, pero aun así se mantuvieron dentro de un rango comparable a la incertidumbre experimental típica, especialmente para varios de los disolventes probados. Comparado con dos métodos termodinámicos semi-predictivos ampliamente usados, Flory-Huggins y NRTL-SAC dependiente de la temperatura, el modelo XGBoost produjo sistemáticamente errores menores en conjunto y funcionó particularmente bien en los sistemas más desafiantes.

Qué significa esto para el desarrollo futuro de fármacos

Para no especialistas, la conclusión clave es que un modelo de aprendizaje automático relativamente pequeño e informado físicamente puede estimar de forma fiable cuán bien se disuelven moléculas tipo fármaco en disolventes orgánicos comunes a lo largo de un rango de temperaturas. Lo hace usando un conjunto moderado de propiedades medibles, sin el intenso ajuste de parámetros que a menudo requieren los enfoques tradicionales. Si bien los autores señalan que una refinación adicional de los descriptores elegidos y una base de datos más amplia mejorarían el rendimiento, el estudio demuestra que dichos modelos ya pueden apoyar la selección de disolventes y el diseño de procesos, ayudando a los químicos a acotar opciones prometedoras antes de realizar trabajos de laboratorio detallados.

Cita: Valavi, M., Assareh, M., Khoshsima, A. et al. Development and evaluation of an effective solubility prediction model for pharmaceuticals in organic solvents using machine learning based on eXtreme Gradient Boosting. Sci Rep 16, 16592 (2026). https://doi.org/10.1038/s41598-026-53038-w

Palabras clave: solubilidad de fármacos, disolventes orgánicos, aprendizaje automático, XGBoost, cristalización