Clear Sky Science · es
MIMIC-III-Ext-PPG, un conjunto de datos de referencia basado en PPG para el análisis de señales cardiovasculares y respiratorias
Por qué los sensores de muñeca pueden contar una historia de vida o muerte
Muchos de nosotros llevamos relojes inteligentes que registran discretamente nuestro pulso día y noche. En las unidades de cuidados intensivos se registra de forma continua una señal muy similar basada en luz llamada fotopletismografía, o PPG, procedente de pacientes críticos. Este artículo presenta MIMIC-III-Ext-PPG, la mayor y más detallada colección pública de estas señales de pulso hasta la fecha, diseñada para ayudar a los investigadores a desarrollar y evaluar nuevos algoritmos para detectar ritmos cardíacos peligrosos, estimar la presión arterial sin manguito y monitorear la respiración. 
Una biblioteca gigantesca de instantáneas del pulso
Los autores reunieron más de 6,3 millones de fragmentos cortos de 30 segundos de señales PPG procedentes de 6.189 pacientes de cuidados intensivos cuyos datos forman parte de la conocida base de datos hospitalaria MIMIC-III. Cada fragmento captura cómo la luz que atraviesa una yema del dedo cambia con cada latido, una medida sencilla que hoy está disponible tanto en monitores de cabecera como en dispositivos de consumo. Para muchos de estos fragmentos, el conjunto de datos incluye además señales sincronizadas de electrocardiograma, presión arterial y respiración, convirtiendo cada instantánea del pulso en una ventana rica y multisensorial sobre el corazón y los pulmones.
De las notas de cabecera a etiquetas detalladas de ritmo cardíaco
Lo que distingue a este conjunto de datos no es solo su tamaño, sino sus etiquetas. En el sistema hospitalario original, enfermeras y médicos registraban regularmente el ritmo cardíaco del paciente en las hojas electrónicas. El equipo emparejó cuidadosamente estas anotaciones con los tiempos exactos cubiertos por las grabaciones de las formas de onda y armonizó los distintos sistemas de registro en un único conjunto coherente de 26 tipos de ritmo cardíaco. Estos abarcan desde ritmo normal y simples aceleraciones o desaceleraciones, pasando por diversas arritmias auriculares y ventriculares, hasta ritmos impulsados por marcapasos y bloqueos de conducción completos. Este nivel de detalle supera con creces a los conjuntos de datos previos basados en el pulso, que normalmente ofrecían solo una o dos categorías de ritmo.
Midiendo más que el latido
Para respaldar una variedad de estudios, los autores extrajeron un conjunto de signos vitales básicos directamente de las señales. A partir de las formas de onda de presión arterial calcularon las presiones típicas máximas y mínimas; de la señal de respiración estimaron la frecuencia respiratoria; y del electrocardiograma derivaron la frecuencia cardíaca. Estos valores se calcularon en ventanas temporales cortas, usando algoritmos de código abierto establecidos y reglas de buenas prácticas para evitar lecturas espurias. Al empaquetar estas mediciones con cada segmento de 30 segundos, el conjunto de datos permite a los investigadores evaluar algoritmos que predigan la presión arterial, la frecuencia cardíaca o la frecuencia respiratoria a partir de la señal de pulso sola, y explorar cómo cambian conjuntamente estos objetivos.
Asegurando que las señales sean fiables
Los datos hospitalarios del mundo real pueden ser desordenados: los sensores se desprenden, los pacientes se mueven y los cables se desconectan. Para evitar análisis engañosos, el equipo construyó una canalización de calidad de señal que filtra cada segmento. Para cada tipo de señal comprobaron líneas planas, valores faltantes, frecuencias cardíacas o respiratorias implausibles y formas de latido inconsistentes. Los segmentos que superaron todas las comprobaciones se marcaron como de alta calidad; los que presentaban problemas menores pero seguían siendo útiles se etiquetaron como de baja calidad; y los segmentos con problemas graves se excluyeron por completo. Los autores también validaron una etiqueta clave, la fibrilación auricular, comparándola con anotaciones de electrocardiogramas revisadas por expertos de otro estudio, encontrando un alto grado de acuerdo y casi perfecta especificidad. 
Una base para futuros algoritmos de salud
Al combinar gran escala, etiquetas detalladas de ritmo cardíaco, múltiples señales sincronizadas y puntuaciones de calidad explícitas, MIMIC-III-Ext-PPG ofrece un banco de pruebas potente para la medicina basada en datos. Los investigadores pueden usarlo para comparar nuevos métodos para detectar latidos irregulares con sensores tipo muñeca, estimar la presión arterial sin manguito o construir modelos multitarea que aprendan varios signos vitales a la vez. Aunque no está destinado a guiar decisiones médicas en tiempo real por sí solo, este conjunto de datos abierto sienta las bases para algoritmos más fiables y generalizables que algún día podrían convertir los sensores de pulso cotidianos en sistemas de alerta temprana frente a problemas graves del corazón y los pulmones.
Cita: Moulaeifard, M., Kutscher, M., Aston, P.J. et al. MIMIC-III-Ext-PPG, a PPG-based Benchmark Dataset for Cardiovascular and Respiratory Signal Analysis. Sci Data 13, 668 (2026). https://doi.org/10.1038/s41597-026-07335-8
Palabras clave: fotopletismografía, detección de arritmias, datos de cuidados intensivos, estimación de la presión arterial, sensores de salud vestibles