Clear Sky Science · es

Importancia de conjuntos de datos equilibrados con selección de características y métodos ensemble en la clasificación de enfermedades cardíacas usando técnicas distintivas de aprendizaje automático: un análisis comparativo

· Volver al índice

Por qué esto importa para los corazones cotidianos

La enfermedad cardíaca sigue siendo la principal causa de muerte en el mundo, sin embargo la mayoría de las personas que hacen encuestas de salud o visitan clínicas nunca ven sus respuestas convertidas en alertas tempranas. Este estudio plantea una pregunta simple pero potente: si limpiamos y reequilibramos grandes conjuntos de datos de salud, elegimos con cuidado los factores de riesgo más reveladores y luego seleccionamos el tipo de modelo informático adecuado, ¿podemos mejorar de forma notable la detección de quién tiene probabilidad de desarrollar problemas cardíacos?

Figure 1
Figure 1.

Convertir datos de salud desordenados en algo útil

Los investigadores trabajaron con un gran conjunto de datos públicos del Behavioral Risk Factor Surveillance System de EE. UU., que contiene información auto-reportada de miles de adultos sobre su salud y hábitos. Cada persona está descrita por 17 características cotidianas como edad, consumo de tabaco y alcohol, horas de sueño, actividad física, diabetes, enfermedad renal y valoración general de la salud, junto con si padece enfermedad cardíaca. Como ocurre con la mayoría de los registros médicos reales, los datos estaban desordenados: faltaban algunos valores, había personas claramente atípicas y muchas menos personas informaron enfermedad cardíaca que las que no. El equipo primero limpió los datos, completó los valores faltantes, eliminó los outliers extremos y luego dividió los registros en grupos separados para entrenar y probar los modelos informáticos.

Resolver el problema de los casos raros

Un gran obstáculo fue el desequilibrio: las personas sin enfermedad cardíaca superaban con creces a las que la tenían. En tales situaciones, un modelo puede parecer preciso simplemente acertando “no enfermedad” la mayor parte del tiempo, mientras pasa por alto muchos casos reales. Para contrarrestarlo, los autores utilizaron una técnica llamada sobremuestreo, que crea ejemplos sintéticos realistas de los casos menos frecuentes de “enfermedad cardíaca” para que los datos de entrenamiento contengan números aproximadamente iguales de resultados positivos y negativos. Este paso de balanceo mejoró la capacidad de varios modelos para encontrar personas con enfermedad cardíaca, pero por sí solo no volvió las predicciones consistentemente finas o discriminantes.

Figure 2
Figure 2.

Elegir los factores de riesgo más reveladores

El estudio preguntó luego qué piezas de información sobre una persona importan más para la predicción. Los autores probaron tres familias de herramientas estadísticas que puntúan cada característica según lo fuertemente que se relaciona con la enfermedad cardíaca. Las evaluaron por separado y en ocho combinaciones diferentes de uniones e intersecciones, planteando esencialmente: “¿Y si mantenemos todo lo que cualquier método señale?” frente a “¿Y si mantenemos solo las características en las que todos los métodos coinciden?”. Los intervalos de edad, la autovaloración de la salud general, dificultad para caminar, antecedente de ictus, diabetes, enfermedad renal, índice de masa corporal y ciertos marcadores de estilo de vida surgieron repetidamente como las señales más informativas a través de los métodos.

Enfrentando modelos de aprendizaje automático

Con datos balanceados y características cuidadosamente seleccionadas, el equipo comparó siete enfoques populares de aprendizaje automático: regresión logística, árboles de decisión, bosques aleatorios, naïve Bayes, máquinas de vectores de soporte, redes neuronales artificiales y k-vecinos más cercanos. Los evaluaron mediante medidas comunes: precisión global, cuán a menudo las predicciones positivas eran correctas (precisión), cuántos casos reales de enfermedad cardíaca se detectaron (recuperación) y qué tan bien los modelos separaban a las personas enfermas de las sanas a lo largo de todos los umbrales (la puntuación ROC–AUC). Los bosques aleatorios y los árboles de decisión se situaron constantemente en la cima una vez aplicada la selección de características, especialmente cuando métodos basados en ANOVA formaron parte del proceso de selección. En el mejor escenario, un bosque aleatorio alcanzó alrededor de un 92% de precisión, 93% de recall y un AUC de 0,92, claramente por delante de sus competidores.

Cuándo combinar modelos ayuda—y cuándo no

Los autores también exploraron el “bagging”, una forma de crear muchas versiones ligeramente diferentes de un modelo y luego combinar sus votos. Este truco de ensamblaje suele usarse para reducir la inestabilidad en modelos como los árboles de decisión. En este estudio, el bagging aportó pequeñas mejoras para algunos modelos de alta varianza pero no mejoró de forma dramática su capacidad para distinguir la enfermedad cardíaca de los casos sanos, especialmente cuando se utilizó sin la selección cuidadosa de características descrita más arriba. De hecho, confiar solo en el bagging a veces dejaba casos positivos importantes sin detectar, lo que sería inaceptable en un entorno médico.

Qué significa esto para pacientes y médicos

Para un lector no experto, el mensaje clave es que cómo preparamos y conformamos los datos puede importar más que lo sofisticado que sea el modelo de predicción. Simplemente aplicar un algoritmo complejo a registros de salud desiguales y ruidosos no es suficiente. Este trabajo muestra que equilibrar los datos y seleccionar cuidadosamente un conjunto focalizado de factores de riesgo significativos—especialmente los destacados por métodos basados en ANOVA—permite que modelos relativamente sencillos como los bosques aleatorios y los árboles de decisión hagan predicciones de enfermedad cardíaca mucho más fiables. Aunque estos resultados aún deben confirmarse en otras poblaciones y en clínicas reales, apuntan a recetas prácticas para construir herramientas de alerta temprana que algún día puedan ayudar a los médicos a detectar antes a los pacientes en riesgo y a adaptar mejor los esfuerzos de prevención.

Cita: Ara, J., Bhuiyan, H., Roza, I.I. et al. Importance of balanced datasets with feature selection and ensemble methods on heart disease classification using distinctive machine learning techniques: a comparative analysis. Sci Rep 16, 11706 (2026). https://doi.org/10.1038/s41598-026-47691-4

Palabras clave: predicción de enfermedades cardíacas, aprendizaje automático, selección de características, balanceo de datos de salud, modelos de bosque aleatorio