Clear Sky Science · pt

Conjunto de dados de valores de solubilidade para compostos orgânicos em misturas binárias de solventes em várias temperaturas

· Voltar ao índice

Por que isso importa para a química cotidiana

Muitos produtos dos quais dependemos, de medicamentos a plásticos e tintas, dependem de quão bem uma substância se dissolve em um líquido. Em ambientes industriais reais, os cientistas raramente trabalham com um único solvente puro; frequentemente misturam dois líquidos para ajustar finamente quanto de um sólido irá se dissolver. Medir isso para cada novo composto e par solvente é lento e trabalhoso. Este artigo apresenta o MixtureSolDB, uma grande coleção cuidadosamente verificada de dados experimentais que captura como mais de oitocentos compostos orgânicos se dissolvem em centenas de diferentes misturas de dois solventes em uma ampla gama de temperaturas. Um recurso assim foi projetado para acelerar pesquisas em desenvolvimento de fármacos, design de materiais e manufatura sustentável.

Figure 1. Muitas moléculas em muitos solventes mistos alimentando um grande mapa de quão bem cada composto se dissolve.
Figure 1. Muitas moléculas em muitos solventes mistos alimentando um grande mapa de quão bem cada composto se dissolve.

Um grande mapa de como as coisas se dissolvem

Os autores reuniram 175.166 medições individuais de solubilidade para 810 compostos orgânicos em 750 diferentes misturas binárias de solventes, cobrindo 3.001 combinações distintas de soluto e solventes mistos entre 252 e 383 kelvin. Cada ponto de dados registra quanto de um composto pode se dissolver em um par específico de solventes em uma determinada proporção de mistura e temperatura. Muitos desses sistemas incluem água misturada com um líquido orgânico, como um álcool, acetona ou acetonitrila, refletindo a frequência com que tais misturas são usadas em laboratórios e na indústria. Ao extrair informações de 1.115 artigos revisados por pares, os autores ampliam consideravelmente os conjuntos de dados públicos anteriores, oferecendo aos pesquisadores uma visão muito mais ampla e variada do comportamento de solubilidade.

Como os dados foram coletados e limpos

Para montar esse conjunto de dados, a equipe primeiro pesquisou periódicos científicos por artigos cujos títulos ou resumos continham frases como “solubilidade + binária” ou “solubilidade + mistura.” A partir de 5.775 registros, removeram duplicatas e artigos sem dados utilizáveis, então extraíram manualmente valores numéricos de 1.115 artigos adequados. Focaram em compostos orgânicos, sais orgânicos e solvatos definidos, sob pressão normal e sem aditivos extras, e garantiram que as formas sólidas fossem as mais estáveis quando houve polimorfos envolvidos. Estruturas moleculares de solutos e solventes foram traduzidas para um formato textual padrão chamado SMILES, e convenções de nomenclatura para solventes foram unificadas para evitar confusão entre sinônimos.

Tornando os números comparáveis entre sistemas

Dados brutos de solubilidade podem ser reportados de várias formas, como fração molar ou gramas por quantidade de solvente, e a fração de cada solvente em uma mistura pode ser dada por massa ou por mol. Para tornar os dados consistentes e prontos para modelagem, os autores converteram todas as medições em várias formas padrão, incluindo um valor baseado em massa expresso como gramas de soluto por 100 gramas de solvente e seu logaritmo decimal, uma escolha comum em estudos de solubilidade orientados por dados. Eles utilizaram pesos moleculares calculados por software de química de código aberto para realizar essas conversões, inclusive para casos especiais como solventes à base de polietilenoglicol. A tabela final também registra metadados detalhados: a temperatura, composição do par de solventes, identificadores de bancos de dados públicos e se um composto é aprovado como medicamento pela Food and Drug Administration dos EUA.

Figure 2. Alterar a proporção de dois solventes em torno de uma molécula para mostrar como sua solubilidade sobe ou cai passo a passo.
Figure 2. Alterar a proporção de dois solventes em torno de uma molécula para mostrar como sua solubilidade sobe ou cai passo a passo.

Verificando a confiabilidade e explorando o conjunto de dados

Embora os artigos-fonte já tenham sido revisados por pares, copiar tantos números manualmente pode introduzir erros. Para reduzir esse risco, dois químicos treinados extraíram os dados independentemente e uma terceira pessoa comparou e mesclou os resultados. A equipe então executou uma série de verificações automatizadas, procurando valores impossíveis, como solubilidades superiores a uma fração molar de um ou frações de solvente que não somavam corretamente, e confrontaram temperaturas com pontos de ebulição conhecidos. Também verificaram referências bibliográficas usando identificadores de objeto digital (DOIs) e resolveram inconsistências onde o mesmo nome apontava para estruturas diferentes ou vice-versa. O conjunto de dados resultante, junto com uma tabela menor de pontos de ebulição de solventes, está disponível publicamente como arquivos simples separados por vírgulas e pode ser consultado por meio de uma ferramenta interativa online que permite pesquisar por nome do composto ou estrutura e focar em medicamentos aprovados.

O que isso significa para futuras ferramentas

Para químicos e cientistas de dados, o MixtureSolDB oferece um recurso de referência para construir e testar modelos que preveem quanto de um composto irá se dissolver em solventes mistos sem realizar novos experimentos a cada vez. O grande número de pontos de dados e a ampla variedade de compostos e pares de solventes ajudam métodos de aprendizado de máquina a aprender padrões mais gerais em vez de ajustar demais a um conjunto restrito de casos. Enquanto os autores recomendam uma medida logarítmica como o alvo mais adequado para comparar diferentes sistemas, eles também fornecem valores práticos baseados em massa para planejamento no mundo real no laboratório. Em última análise, esse conjunto de dados deve ajudar pesquisadores a projetar melhores reações, processos de cristalização e formulações, oferecendo maneiras mais rápidas e informadas de escolher misturas de solventes.

Citação: Malikov, D., Krasnov, L., Kiseleva, M. et al. Dataset of solubility values for organic compounds in binary mixtures of solvents at various temperatures. Sci Data 13, 727 (2026). https://doi.org/10.1038/s41597-026-07047-z

Palavras-chave: solubilidade, misturas binárias de solventes, conjunto de dados para aprendizado de máquina, compostos orgânicos, quimioinformática