Clear Sky Science · es

Evaluación comparativa de estrategias de imputación para datos de series temporales faltantes en cuidados críticos usando escenarios inspirados en el mundo real

2026-02-10 · Volver al índice

Por qué importa rellenar los huecos de datos en pacientes de la UCI

En las unidades de cuidados intensivos modernas, cada latido, respiración y pulso de presión arterial se registra como un flujo continuo de números. Sin embargo, en la práctica esos flujos están llenos de huecos: los sensores se desprenden, los pacientes salen de la cama para pruebas y los dispositivos se apagan brevemente. Cuando médicos y sistemas informáticos usan estos registros incompletos para pronosticar el futuro del paciente o guiar el tratamiento, la forma en que "rellenamos" esas piezas faltantes puede cambiar sutilmente la historia que cuentan los datos. Este estudio plantea una pregunta práctica con grandes implicaciones: entre una amplia gama de estrategias de relleno—desde líneas rectas simples hasta inteligencia artificial de última generación—¿cuáles funcionan mejor bajo los tipos de brechas de datos que ocurren realmente en las UCI?

Un examen más detallado de los signos vitales en UCI

Los investigadores recurrieron a MIMIC-IV, una gran base de datos pública de estancias en UCI desidentificadas de un hospital de Estados Unidos. Se centraron en 26.167 estancias de adultos y examinaron las primeras 48 horas tras el ingreso en UCI, siguiendo cuatro signos vitales que se monitorizan de forma continua en la cabecera: frecuencia cardíaca, nivel de oxígeno en sangre, frecuencia respiratoria y presión arterial media. Para mantener las señales realistas se eliminaron lecturas obviamente imposibles, y todas las mediciones se resumieron una vez por hora. Cualquier hora sin un valor registrado para un signo vital se trató como faltante. Aunque solo alrededor del 4 % de todos los valores estaban ausentes, el equipo observó que estas brechas no estaban esparcidas al azar: con frecuencia se agrupaban hacia el final de la ventana de 48 horas y a veces afectaban a varios signos vitales a la vez.

Cómo se recrearon las brechas de datos del mundo real

En lugar de inventar patrones puramente artificiales de valores faltantes, los autores construyeron tres escenarios inspirados en lo observado en los datos crudos y en lo que los clínicos ven en la cabecera. En el primero, lecturas individuales se eliminaron aleatoriamente, imitando mediciones ocasionalmente perdidas. En el segundo, bloques de 1 a 3 horas en los cuatro signos vitales desaparecían juntos, representando momentos en que el paciente está alejado de los monitores—por ejemplo, durante una prueba de imagen. En el tercero, un único signo vital—por ejemplo, la presión arterial—se eliminó durante un tramo continuo de 4 horas, evocando un sensor fallido o una sonda desplazada. Cada escenario eliminó alrededor del 30 % de los datos, suponiendo una prueba exigente para cualquier método que pretenda reconstruir las curvas originales.

Trucos antiguos frente a inteligencia de máquina moderna

El equipo comparó entonces un amplio conjunto de métodos de reconstrucción. Los recursos simples incluyeron rellenar cada hueco con el valor medio del paciente, transportar hacia adelante la última lectura observada o trazar una línea recta entre los puntos conocidos más cercanos. Herramientas estadísticas más avanzadas intentaron predecir los valores faltantes a partir de los otros signos vitales, pero al hacerlo tuvieron que aplanar la dimensión temporal y tratar cada hora como una fila más en una tabla. En el otro extremo estaban los modelos de aprendizaje profundo—Transformers, redes recurrentes y modelos generativos—que aprenden explícitamente patrones a lo largo del tiempo y entre variables. Todos los modelos se entrenaron con datos en los que el 30 % de los valores se ocultaron de forma aleatoria y luego se evaluaron en cada uno de los tres escenarios de enmascaramiento. El rendimiento se juzgó por la distancia entre sus reconstrucciones y los números originales, con atención particular a los errores en la presión arterial media, una señal crucial para el manejo de la circulación.

Qué funcionó, cuándo y en qué medida

En conjunto, los modelos más sofisticados—en particular un enfoque basado en Transformer y una red adversarial generativa—ofrecieron los errores promedio más bajos, especialmente cuando las brechas eran cortas o dispersas. Sin embargo, un método humilde—la interpolación lineal—se comportó sorprendentemente bien, acercándose a estos modelos neuronales en muchas situaciones. Las herramientas estadísticas que ignoraron el orden de las mediciones, como los bosques aleatorios y las ecuaciones encadenadas, se quedaron rezagadas a pesar de su complejidad. La forma de las brechas también importó. Cuando los valores faltaban al azar, todos los métodos parecieron mejores, ofreciendo una imagen demasiado optimista de su precisión. Los huecos largos y continuos en el registro, especialmente a lo largo de varias horas o en un sensor fallido, resultaron mucho más difíciles de rellenar correctamente. En estos escenarios más duros, los mejores métodos de aprendizaje profundo se degradaron de forma más gradual que los enfoques simples, pero las ganancias a menudo fueron modestas cuando se traducían a unidades reales de presión arterial.

Por qué los hallazgos importan para las decisiones en la cabecera

Para los rangos de presión arterial habituales, la diferencia entre los mejores modelos de aprendizaje profundo y la interpolación directa fue a menudo de solo unos pocos milímetros de mercurio—típicamente demasiado pequeña para alterar la decisión de un médico. Aun así, todos los métodos, incluidos los más avanzados, tuvieron dificultades cuando la presión arterial era muy baja o muy alta—justo los momentos en los que la monitorización cuidadosa importa más. El estudio concluye que elegir cómo manejar los datos faltantes en la UCI tiene tanto que ver con entender cómo y dónde ocurren las brechas como con escoger el último algoritmo. Los modelos sofisticados pueden ofrecer mejoras incrementales, particularmente para huecos más largos o complejos, pero los métodos simples y transparentes pueden ser más que suficientes para muchos usos prácticos. Crucialmente, un mejor relleno de brechas no garantiza automáticamente mejores modelos predictivos; trabajos futuros deben probar cómo estas decisiones de reconstrucción se trasladan a decisiones clínicas reales.

Cita: Poette, M., Mouysset, S., Ruiz, D. et al. Benchmarking imputation strategies for missing time-series data in critical care using real-world-inspired scenarios. Sci Rep 16, 8116 (2026). https://doi.org/10.1038/s41598-026-39035-z

Palabras clave: series temporales en UCI, datos faltantes, métodos de imputación, aprendizaje profundo, signos vitales