Clear Sky Science · pt

Projetando um algoritmo explicável baseado em XGBoost e algoritmo genético para prever a necessidade de hospitalização de pacientes com COVID-19

· Voltar ao índice

Por que isso importa para a assistência cotidiana

Durante a pandemia de COVID-19, os médicos frequentemente precisaram decidir muito rápido quem precisava de um leito hospitalar e quem poderia se recuperar com segurança em casa. Este artigo descreve uma ferramenta computadorizada projetada para ajudar nessa decisão. Ela busca combinar duas qualidades importantes: alta precisão em identificar pacientes em risco e explicações claras e simples que os médicos possam realmente confiar e usar.

Transformando prontuários em alertas precoces

Os pesquisadores analisaram registros médicos de 1.278 adultos com COVID-19 atendidos em um único hospital no Irã entre abril de 2020 e março de 2021. Para cada pessoa, coletaram 27 informações, incluindo idade, nível de oxigênio, exames de sangue como proteína C-reativa e D-dímero, sintomas como febre ou falta de ar, e doenças pré-existentes como diabetes ou hipertensão. Foram mantidos apenas registros com evidência laboratorial ou de imagem sólida de COVID-19 e dados razoavelmente completos. A equipe limpou cuidadosamente o conjunto de dados, imputou alguns valores ausentes com métodos estatísticos, removeu erros evidentes e então dividiu os dados em grupos separados para treinar e testar seus modelos.

Figure 1
Figure 1.

Construindo um motor de predição poderoso

No coração do sistema está um método de aprendizado de máquina chamado XGBoost, que é muito bom em encontrar padrões em dados complexos. A ferramenta aprende com pacientes anteriores quais combinações de medidas tendem a sinalizar necessidade de atenção hospitalar. Quando testada 100 vezes em dados novos, ela separou corretamente pacientes de maior risco dos de menor risco com uma área sob a curva de 0,85, o que significa que foi eficaz em classificar quem tinha maior probabilidade de precisar de internação. Identificou cerca de três em cada quatro pacientes que realmente precisaram de hospitalização e tranquilizou corretamente cerca de nove em cada dez pessoas que não precisaram. Em comparação com abordagens mais tradicionais — como regressão logística, florestas aleatórias, uma rede neural simples e outro método baseado em árvores chamado LightGBM — o XGBoost ofereceu a melhor combinação de precisão e confiabilidade.

De caixa-preta a regras claras para médicos

Modelos puramente estatísticos podem parecer uma caixa-preta: fornecem uma pontuação de risco, mas não uma razão compreensível. Para abrir essa caixa, a equipe adicionou uma segunda camada que transforma o comportamento do modelo em regras curtas e fáceis de ler da forma “SE estas condições estiverem presentes, ENTÃO a hospitalização é provável.” Eles primeiro treinaram um conjunto de pequenas árvores de decisão que usam apenas algumas condições por vez, e então trataram cada caminho por essas árvores como uma regra candidata. Um algoritmo genético — um método de otimização inspirado na evolução — foi usado para aparar e refinar essas regras, mantendo apenas as que eram ao mesmo tempo precisas e aplicáveis a um número suficiente de pacientes para serem úteis. Finalmente, dez médicos de especialidades relevantes avaliaram as regras, mantendo apenas aquelas que eram medicamente sensatas e claras. Esse processo produziu 40 regras finais, 20 apontando para hospitalização e 20 para cuidados ambulatoriais seguros.

Figure 2
Figure 2.

O que o modelo aprendeu sobre risco

Quando os pesquisadores investigaram quais medidas mais importavam, um pequeno grupo se destacou. Baixa saturação de oxigênio, proteína C-reativa elevada, idade avançada, D-dímero aumentado, ferritina alta e baixa porcentagem de linfócitos tiveram o maior impacto nas previsões — compatível com a experiência clínica de que níveis de oxigênio e sinais de inflamação ou trombose são cruciais. Condições como diabetes, comprometimento pulmonar significativo em tomografia e falta de ar também tiveram papel, mas foram relativamente menos centrais. Sintomas comuns como tosse ou dores musculares contribuíram pouco para decidir quem precisava de leito hospitalar. A equipe também verificou o desempenho entre homens e mulheres, pacientes mais jovens e mais velhos, e aqueles com ou sem doenças crônicas importantes. As diferenças foram pequenas e não estatisticamente significativas, sugerindo que a ferramenta se comportou de maneira justa entre esses grupos, pelo menos neste conjunto de dados.

Como isso pode ajudar em futuros surtos

Na prática, o sistema funcionaria em duas etapas. Primeiro, o modelo XGBoost calcula um risco de hospitalização a partir das informações básicas do paciente, sinais vitais e exames de sangue rotineiros. Segundo, a ferramenta procura por uma das regras aprovadas por especialistas que corresponda a esse paciente — como uma certa combinação de baixa oxigenação, marcadores inflamatórios elevados e idade. Se for encontrada uma regra correspondente que concorde com a previsão do modelo, a ferramenta apresenta essa regra ao clínico como o raciocínio por trás da decisão sugerida. Os autores argumentam que esse projeto em duas partes — predição precisa mais regras simples e avaliadas — poderia tornar a inteligência artificial mais aceitável em clínicas reais. Como o processo de geração de regras é modular, sistemas semelhantes poderiam ser rapidamente re-treinados para novas doenças infecciosas usando dados locais, ajudando hospitais a triagem pacientes e gerenciar recursos escassos durante futuras crises de saúde.

Citação: Abkar, A., Mehrabi, M., Golabpour, A. et al. Designing an explainable algorithm based on XGBoost and genetic algorithm for predicting hospitalization needs of COVID-19 patients. Sci Rep 16, 10210 (2026). https://doi.org/10.1038/s41598-026-40120-6

Palavras-chave: triagem de COVID-19, previsão de hospitalização, IA explicável, suporte à decisão clínica, aprendizado de máquina na saúde