Clear Sky Science · pt

Desenvolvimento e avaliação de um modelo efetivo de predição de solubilidade para farmacêuticos em solventes orgânicos usando aprendizado de máquina baseado em eXtreme Gradient Boosting

· Voltar ao índice

Por que dissolver medicamentos realmente importa

Quando um comprimido entra no seu corpo, ele precisa primeiro se dissolver antes de fazer efeito. A facilidade com que um ingrediente ativo se dissolve em um líquido afeta como um medicamento é fabricado, sua estabilidade e sua eficácia. Medir essa "solubilidade" em muitos líquidos e temperaturas diferentes é lento e caro. Este estudo investiga como uma ferramenta de dados moderna, o aprendizado de máquina, pode ajudar cientistas a estimar rapidamente quão bem compostos do tipo fármaco se dissolvem em solventes orgânicos comuns, usando apenas uma pequena quantidade de informações fáceis de obter.

Escolhendo o líquido certo para formar cristais

Na fabricação de medicamentos, os produtores frequentemente fazem crescer cristais do ingrediente ativo a partir de um solvente orgânico. O solvente não apenas controla quanto sólido é recuperado; ele também molda o tamanho e a forma dos cristais, o que por sua vez pode influenciar o comportamento do medicamento. Tradicionalmente, químicos realizam muitos experimentos ou usam equações termodinâmicas complexas para prever a solubilidade. Esses métodos estabelecidos podem ser precisos, mas frequentemente exigem muitos parâmetros ajustados ou dados moleculares detalhados que não estão disponíveis nas fases iniciais de desenvolvimento. Os autores deste trabalho, em vez disso, perguntam se um modelo de aprendizado de máquina cuidadosamente projetado pode capturar as tendências-chave da solubilidade mantendo-se fundamentado em entradas simples e fisicamente significativas.

Figure 1. Como um modelo compacto de aprendizado de máquina relaciona propriedades básicas do fármaco e do solvente à solubilidade em diversos líquidos orgânicos.
Figure 1. Como um modelo compacto de aprendizado de máquina relaciona propriedades básicas do fármaco e do solvente à solubilidade em diversos líquidos orgânicos.

Um modelo compacto orientado por dados com insight físico

A equipe construiu um modelo de predição de solubilidade usando um método popular de aprendizado de máquina chamado eXtreme Gradient Boosting, ou XGBoost. Eles reuniram dados publicados de solubilidade para quatro moléculas do tipo fármaco em nove solventes orgânicos comuns, ao longo de uma ampla faixa de temperaturas, resultando em 224 pontos de dados. Em vez de alimentar o algoritmo com descritores arbitrários, selecionaram dez características que os químicos já compreendem: propriedades do sólido (como temperatura de fusão, calor de fusão, capacidade térmica e um parâmetro de solubilidade bem conhecido), propriedades básicas do líquido (polaridade por meio da constante dielétrica e temperatura de ebulição), além da própria temperatura e codificações simples dos nomes do sólido e do líquido. Para refletir o fato de que a maioria dos sólidos se dissolve melhor quando aquecida, eles incorporaram uma regra que força as previsões do modelo a aumentar com a temperatura, garantindo um comportamento fisicamente sensato.

Quão bem o modelo corresponde às medições reais

Após ajustar o modelo usando validação cruzada, os autores testaram quão próximas as previsões estavam dos valores medidos. Avaliaram o desempenho comparando o logaritmo das solubilidades medidas e previstas, abordagem adequada porque as solubilidades cobriram várias ordens de grandeza. Para os quatro compostos usados no treinamento e teste, o modelo reproduziu os dados com erros médios muito pequenos e alta correlação, indicando que ele pode descrever de forma confiável a solubilidade dependente da temperatura em diversos ambientes líquidos. Importante, o modelo permaneceu preciso mesmo para um composto muito pouco solúvel, risperidona, cujo comportamento é notoriamente difícil de capturar com equações mais simples.

Figure 2. Visão passo a passo das entradas, do modelo de aprendizado de máquina e das curvas comparativas para solubilidade medida e prevista com o aumento da temperatura.
Figure 2. Visão passo a passo das entradas, do modelo de aprendizado de máquina e das curvas comparativas para solubilidade medida e prevista com o aumento da temperatura.

Predizendo um composto completamente novo

A questão crucial era se o modelo poderia lidar com um ingrediente ativo que nunca havia visto. Para testar isso, os pesquisadores reservaram todos os dados de um quinto composto, butamben, e usaram essas 50 medições apenas após o treinamento estar completo. Os erros do modelo foram maiores para essa tarefa de predição real do que para os dados que já havia visto, mas ainda se mantiveram dentro de uma faixa comparável à incerteza experimental típica, especialmente para vários dos solventes testados. Quando comparado com dois métodos termodinâmicos semi-preditivos amplamente usados, Flory Huggins e NRTL-SAC dependente da temperatura, o modelo XGBoost produziu consistentemente erros menores no geral e se saiu particularmente bem nos sistemas mais desafiadores.

O que isso significa para o futuro do desenvolvimento de medicamentos

Para não especialistas, a conclusão principal é que um modelo relativamente pequeno e informado fisicamente pode estimar de forma confiável quão bem moléculas do tipo fármaco se dissolvem em solventes orgânicos comuns ao longo de uma faixa de temperaturas. Ele faz isso usando um conjunto modesto de propriedades mensuráveis, sem os ajustes pesados de parâmetros frequentemente necessários em abordagens tradicionais. Embora os autores observem que um refinamento adicional dos descritores escolhidos e um conjunto de dados mais amplo melhorariam o desempenho, o estudo mostra que tais modelos já podem apoiar a triagem de solventes e o projeto de processos, ajudando químicos a reduzir as opções promissoras antes de realizar trabalhos laboratoriais detalhados.

Citação: Valavi, M., Assareh, M., Khoshsima, A. et al. Development and evaluation of an effective solubility prediction model for pharmaceuticals in organic solvents using machine learning based on eXtreme Gradient Boosting. Sci Rep 16, 16592 (2026). https://doi.org/10.1038/s41598-026-53038-w

Palavras-chave: solubilidade de fármacos, solventes orgânicos, aprendizado de máquina, XGBoost, cristalização