Clear Sky Science · pt

Importância de conjuntos de dados balanceados com seleção de características e métodos em conjunto na classificação de doenças cardíacas usando técnicas distintas de aprendizado de máquina: uma análise comparativa

· Voltar ao índice

Por que isso importa para corações do dia a dia

A doença cardíaca continua sendo a principal causa de morte no mundo, e ainda assim a maioria das pessoas que responde a inquéritos de saúde ou visita clínicas raramente vê suas respostas convertidas em alertas precoces. Este estudo faz uma pergunta simples, porém poderosa: se limpamos e reequilibramos grandes conjuntos de dados de saúde, escolhemos com cuidado os fatores de risco mais informativos e então selecionamos o tipo certo de modelo computacional, podemos detectar de forma visivelmente melhor quem tem probabilidade de desenvolver problemas cardíacos?

Figure 1
Figure 1.

Transformando dados de saúde bagunçados em algo útil

Os pesquisadores trabalharam com um grande conjunto de dados públicos do Behavioral Risk Factor Surveillance System dos EUA, que contém informações autorrelatadas de milhares de adultos sobre sua saúde e hábitos. Cada pessoa é descrita por 17 características cotidianas, como idade, hábito de fumar e beber, tempo de sono, atividade física, diabetes, doença renal e autoavaliação geral da saúde, além de indicar se possui doença cardíaca. Como na maioria dos registros médicos do mundo real, os dados eram desordenados: alguns valores estavam faltando, havia outliers claros e muito menos pessoas relataram doença cardíaca do que não. A equipe primeiro limpou os dados, preencheu valores ausentes, removeu outliers extremos e então dividiu os registros em grupos separados para treinar e testar os modelos computacionais.

Resolvendo o problema dos casos raros

Um grande obstáculo foi o desequilíbrio: pessoas sem doença cardíaca superavam em muito as que tinham. Nessas situações, um modelo pode parecer preciso simplesmente ao chutar “sem doença” na maior parte do tempo, enquanto perde muitos casos verdadeiros. Para combater isso, os autores usaram uma técnica chamada oversampling, que cria exemplos sintéticos realistas dos casos mais raros de “doença cardíaca” para que os dados de treino contenham números aproximadamente iguais de resultados positivos e negativos. Essa etapa de balanceamento melhorou a capacidade de vários modelos de encontrar pessoas com doença cardíaca, mas por si só não tornou as previsões nitidamente precisas ou discriminantes.

Figure 2
Figure 2.

Escolhendo os fatores de risco mais informativos

O estudo então perguntou quais pedaços de informação sobre uma pessoa mais importam para a predição. Os autores testaram três famílias de ferramentas estatísticas que pontuam cada característica pelo quão fortemente ela se relaciona com doença cardíaca. Eles as avaliaram isoladamente e em oito uniões e interseções diferentes, basicamente perguntando: “E se mantivermos tudo que qualquer método sinalizar?” versus “E se mantivermos apenas as características em que todos os métodos concordam?” Faixas etárias, autoavaliação geral da saúde, dificuldade para andar, histórico de AVC, diabetes, doença renal, índice de massa corporal e certos marcadores de estilo de vida surgiram repetidamente como os sinais mais informativos entre os métodos.

Colocando modelos de aprendizado de máquina frente a frente

Com dados balanceados e características cuidadosamente escolhidas, a equipe comparou sete abordagens populares de aprendizado de máquina: regressão logística, árvores de decisão, random forests, naïve Bayes, máquinas de vetor de suporte, redes neurais artificiais e k-vizinhos mais próximos. Eles as julgaram usando medidas comuns: acurácia geral, com que frequência previsões positivas estavam corretas (precisão), quantos casos verdadeiros de doença cardíaca foram detectados (recall) e quão bem os modelos separavam doentes de não doentes em todos os limiares (pontuação ROC–AUC). Random forests e árvores de decisão consistentemente se destacaram assim que a seleção de características foi aplicada, especialmente quando métodos baseados em ANOVA fizeram parte do processo de seleção. No melhor cenário, um random forest alcançou cerca de 92% de acurácia, 93% de recall e uma AUC de 0,92, claramente à frente dos concorrentes.

Quando combinar modelos ajuda — e quando não ajuda

Os autores também exploraram o “bagging”, uma forma de criar muitas versões ligeiramente diferentes de um modelo e então combinar seus votos. Esse truque de ensemble é frequentemente usado para reduzir a instabilidade em modelos como árvores de decisão. Neste estudo, o bagging trouxe pequenos ganhos para alguns modelos de alta variância, mas não melhorou drasticamente sua capacidade de distinguir doença cardíaca de casos saudáveis, especialmente quando usado sem a seleção cuidadosa de características descrita acima. De fato, confiar apenas no bagging às vezes deixava casos positivos importantes sem detecção, o que seria inaceitável em um contexto médico.

O que isso significa para pacientes e médicos

Para o público leigo, a mensagem chave é que a forma como preparamos e moldamos os dados pode importar mais do que o quão sofisticado é o modelo de predição. Simplesmente aplicar um algoritmo complexo a registros de saúde desiguais e ruidosos não é suficiente. Este trabalho mostra que balancear os dados e escolher cuidadosamente um conjunto focado de fatores de risco significativos — especialmente aqueles destacados por métodos baseados em ANOVA — permite que modelos relativamente simples, como random forests e árvores de decisão, façam previsões de doença cardíaca muito mais confiáveis. Embora esses resultados ainda precisem ser confirmados em outras populações e em clínicas reais, eles apontam para receitas práticas para construir ferramentas de alerta precoce que, um dia, podem ajudar médicos a identificar pacientes em risco mais cedo e a orientar melhor os esforços de prevenção.

Citação: Ara, J., Bhuiyan, H., Roza, I.I. et al. Importance of balanced datasets with feature selection and ensemble methods on heart disease classification using distinctive machine learning techniques: a comparative analysis. Sci Rep 16, 11706 (2026). https://doi.org/10.1038/s41598-026-47691-4

Palavras-chave: previsão de doenças cardíacas, aprendizado de máquina, seleção de características, balanceamento de dados de saúde, modelos random forest