Clear Sky Science · es
Diseño de un algoritmo explicable basado en XGBoost y un algoritmo genético para predecir la necesidad de hospitalización de pacientes con COVID-19
Por qué esto importa en la atención cotidiana
Durante la pandemia de COVID-19, los médicos a menudo tuvieron que decidir con rapidez quién necesitaba una cama hospitalaria y quién podía recuperarse con seguridad en casa. Este artículo describe una herramienta informática diseñada para ayudar en esa decisión. Trata de combinar dos cualidades importantes: alta precisión para identificar a los pacientes en riesgo y explicaciones claras y sencillas en las que los médicos puedan confiar y usar en la práctica.
Convertir los historiales de pacientes en alertas tempranas
Los investigadores analizaron registros médicos de 1.278 adultos con COVID-19 atendidos en un único hospital de Irán entre abril de 2020 y marzo de 2021. Para cada persona recogieron 27 datos, incluyendo edad, nivel de oxígeno, pruebas sanguíneas como proteína C reactiva y D-dímero, síntomas como fiebre o dificultad para respirar, y enfermedades previas como diabetes o hipertensión. Solo se conservaron los registros con evidencia de laboratorio o imagen fiable de COVID-19 y datos razonablemente completos. El equipo limpió cuidadosamente el conjunto de datos, rellenó algunos valores faltantes con métodos estadísticos, eliminó errores evidentes y luego dividió los datos en grupos separados para entrenar y evaluar sus modelos.

Construyendo un motor de predicción potente
En el corazón del sistema hay un método de aprendizaje automático llamado XGBoost, que es muy bueno encontrando patrones en datos complejos. La herramienta aprende de pacientes previos qué combinaciones de mediciones tienden a señalar la necesidad de atención hospitalaria. Al evaluarlo 100 veces con datos nuevos, separó correctamente a los pacientes de mayor y menor riesgo con un área bajo la curva de 0,85, lo que indica una buena capacidad para ordenar quién era más probable que necesitase ingreso. Identificó aproximadamente tres de cada cuatro pacientes que realmente necesitaban hospitalización y acertó en tranquilizar a alrededor de nueve de cada diez personas que no la necesitaban. En comparación con enfoques más tradicionales —como regresión logística, bosques aleatorios, una red neuronal simple y otro método basado en árboles llamado LightGBM— XGBoost ofreció la mejor combinación de precisión y fiabilidad.
De la caja negra a reglas claras para los médicos
Los modelos puramente estadísticos pueden sentirse como una caja negra: ofrecen una puntuación de riesgo pero no una razón comprensible para un humano. Para abrir esa caja, el equipo añadió una segunda capa que convierte el comportamiento del modelo en reglas cortas y fáciles de leer del tipo “SI se dan estas condiciones, ENTONCES es probable la hospitalización”. Primero entrenaron un conjunto de pequeños árboles de decisión que usan solo unas pocas condiciones a la vez y luego trataron cada camino por esos árboles como una regla candidata. Un algoritmo genético —un método de optimización inspirado en la evolución— se usó para recortar y refinar esas reglas, conservando solo las que eran a la vez precisas y aplicables a suficientes pacientes como para ser útiles. Finalmente, diez médicos de especialidades relevantes evaluaron las reglas, manteniendo únicamente las que eran médicamente sensatas y claras. Este proceso produjo 40 reglas finales, 20 que apuntaban a la hospitalización y 20 hacia la atención ambulatoria segura.

Lo que el modelo aprendió sobre el riesgo
Cuando los investigadores indagaron qué mediciones importaban más, emergió un pequeño grupo dominante. La baja saturación de oxígeno, la alta proteína C reactiva, la edad avanzada, el aumento del D-dímero, la ferritina elevada y el bajo porcentaje de linfocitos tuvieron el mayor impacto en las predicciones —coincidiendo con la experiencia clínica de que los niveles de oxígeno y los signos de inflamación o coagulación son cruciales. Condiciones como la diabetes, la afectación pulmonar significativa en la tomografía y la disnea también jugaron un papel, pero fueron algo menos determinantes. Síntomas comunes como tos o dolores musculares contribuyeron poco a la decisión sobre quién necesitaba cama hospitalaria. El equipo también comprobó el rendimiento según sexo, edad y presencia o ausencia de enfermedades crónicas importantes. Las diferencias fueron pequeñas y no estadísticamente significativas, lo que sugiere que la herramienta se comportó de manera relativamente equitativa entre estos grupos, al menos en este conjunto de datos.
Cómo podría ayudar en futuros brotes
En la práctica, el sistema funcionaría en dos etapas. Primero, el modelo XGBoost calcula un riesgo de hospitalización a partir de la información básica del paciente, signos vitales y análisis de sangre rutinarios. Segundo, la herramienta busca una de las reglas aprobadas por expertos que coincida con ese paciente —por ejemplo, cierta combinación de baja oxigenación, marcadores inflamatorios altos y edad—. Si se encuentra una regla que coincida y que esté de acuerdo con la predicción del modelo, la herramienta presenta esa regla al clínico como la justificación de la decisión sugerida. Los autores sostienen que este diseño en dos partes —predicción precisa más reglas simples y validadas— podría hacer que la inteligencia artificial sea más aceptable en clínicas reales. Dado que el proceso de generación de reglas es modular, sistemas similares podrían reentrenarse rápidamente para nuevas enfermedades infecciosas usando datos locales, ayudando a los hospitales a triar pacientes y gestionar recursos limitados durante futuras crisis sanitarias.
Cita: Abkar, A., Mehrabi, M., Golabpour, A. et al. Designing an explainable algorithm based on XGBoost and genetic algorithm for predicting hospitalization needs of COVID-19 patients. Sci Rep 16, 10210 (2026). https://doi.org/10.1038/s41598-026-40120-6
Palabras clave: triaje COVID-19, predicción de hospitalización, IA explicable, soporte a la decisión clínica, aprendizaje automático en salud