Clear Sky Science · es
Conjunto de datos de valores de solubilidad para compuestos orgánicos en mezclas binarias de disolventes a varias temperaturas
Por qué esto importa para la química cotidiana
Muchos productos de los que dependemos, desde medicamentos hasta plásticos y pinturas, dependen de cuánto se disuelve una sustancia en un líquido. En entornos industriales reales, los científicos rara vez trabajan con un único disolvente puro; con frecuencia mezclan dos líquidos para ajustar con precisión cuánto de un sólido se disolverá. Medir esto para cada nuevo compuesto y par de disolventes es lento y laborioso. Este artículo presenta MixtureSolDB, una colección grande y cuidadosamente verificada de datos experimentales que recoge cómo más de ochocientos compuestos orgánicos se disuelven en cientos de diferentes mezclas binarias de disolventes a lo largo de un amplio rango de temperaturas. Un recurso así está diseñado para acelerar la investigación en desarrollo de fármacos, diseño de materiales y fabricación sostenible.

Un gran mapa de cómo se disuelven las sustancias
Los autores reunieron 175.166 mediciones individuales de solubilidad para 810 compuestos orgánicos en 750 diferentes mezclas binarias de disolventes, abarcando 3.001 combinaciones distintas de soluto y disolventes mezclados entre 252 y 383 kelvin. Cada punto de datos registra cuánto de un compuesto puede disolverse en un par de disolventes dado a una relación de mezcla y temperatura concretas. Muchos de estos sistemas incluyen agua mezclada con un líquido orgánico como un alcohol, acetona o acetonitrilo, lo que refleja la frecuencia con que tales mezclas se usan en laboratorios e industria. Al extraer datos de 1.115 artículos revisados por pares, los autores amplían considerablemente los conjuntos de datos públicos previos, proporcionando a los investigadores una visión mucho más amplia y variada del comportamiento de la solubilidad.
Cómo se recopilaron y limpiaron los datos
Para ensamblar este conjunto de datos, el equipo buscó primero en revistas científicas artículos cuyos títulos o resúmenes contuvieran frases como “solubilidad + binaria” o “solubilidad + mezcla”. Partiendo de 5.775 registros, eliminaron duplicados y artículos sin datos utilizables, y luego extrajeron manualmente valores numéricos de 1.115 artículos adecuados. Se centraron en compuestos orgánicos, sales orgánicas y solvatos definidos, bajo presión normal y sin aditivos, asegurando que las formas sólidas fueran las más estables cuando había polimorfos implicados. Las estructuras moleculares de solutos y disolventes se tradujeron a un formato estándar basado en texto llamado SMILES, y se unificaron las convenciones de nombres de disolventes para evitar confusiones entre sinónimos.
Hacer los números comparables entre sistemas
Los datos de solubilidad en bruto pueden reportarse de muchas formas, como fracción molar o gramos por cantidad de disolvente, y la fracción de cada disolvente en una mezcla puede darse por masa o por mol. Para hacer los datos coherentes y listos para modelado, los autores convirtieron todas las mediciones a varias formas estándar, incluyendo un valor basado en masa expresado como gramos de soluto por 100 gramos de disolvente y su logaritmo decimal, una elección común en estudios de solubilidad orientados por datos. Usaron pesos moleculares calculados con software químico de código abierto para realizar estas conversiones, incluso en casos especiales como disolventes basados en polietilenglicol. La tabla final también registra metadatos detallados: la temperatura, la composición del par de disolventes, identificadores de bases de datos públicas y si un compuesto está aprobado como fármaco por la Administración de Alimentos y Medicamentos de EE. UU.

Comprobación de fiabilidad y exploración del conjunto de datos
Aunque los artículos fuente ya fueron revisados por pares, copiar tantos números a mano puede introducir errores. Para reducir este riesgo, dos químicos entrenados extrajeron los datos de forma independiente y una tercera persona comparó y fusionó sus resultados. El equipo luego ejecutó una serie de comprobaciones automatizadas, buscando valores imposibles como solubilidades mayores que una fracción molar de uno o fracciones de disolvente que no sumaban correctamente, y contrastó las temperaturas con puntos de ebullición conocidos. También verificaron las referencias bibliográficas usando identificadores de objetos digitales y resolvieron inconsistencias donde el mismo nombre apuntaba a estructuras diferentes o viceversa. El conjunto de datos resultante, junto con una tabla más pequeña de puntos de ebullición de disolventes, está disponible públicamente como archivos separados por comas y se puede explorar mediante una herramienta interactiva en línea que permite a los usuarios buscar por nombre o estructura del compuesto y centrarse en fármacos aprobados.
Qué significa esto para herramientas futuras
Para químicos y científicos de datos, MixtureSolDB ofrece un recurso de referencia para construir y probar modelos que predigan cuánto de un compuesto se disolverá en disolventes mezclados sin realizar experimentos nuevos cada vez. El gran número de puntos de datos y la amplia variedad de compuestos y pares de disolventes ayudan a los métodos de aprendizaje automático a aprender patrones más generales en lugar de sobreajustarse a un conjunto estrecho de casos. Mientras los autores recomiendan una medida logarítmica como el objetivo más adecuado para comparar distintos sistemas, también proporcionan valores prácticos basados en masa para la planificación en el laboratorio. En última instancia, este conjunto de datos debería ayudar a los investigadores a diseñar mejores reacciones, procesos de cristalización y formulaciones al ofrecer formas más rápidas e informadas de elegir mezclas de disolventes.
Cita: Malikov, D., Krasnov, L., Kiseleva, M. et al. Dataset of solubility values for organic compounds in binary mixtures of solvents at various temperatures. Sci Data 13, 727 (2026). https://doi.org/10.1038/s41597-026-07047-z
Palabras clave: solubilidad, mezclas binarias de disolventes, conjunto de datos para aprendizaje automático, compuestos orgánicos, quimioinformática