Clear Sky Science · es

Evaluación de la salud cardiaca a través de escenarios y dispositivos mediante un modelo fundacional multimodal preentrenado con datos de 1,7 millones de personas

· Volver al índice

Por qué importan tus datos de latidos

Desde los monitores cardiacos hospitalarios hasta los relojes inteligentes, cada vez se rastrea más de nuestra vida mediante pequeñas señales eléctricas y ópticas del corazón. Estas grabaciones pueden detectar arritmias peligrosas, estimar la presión arterial sin manguito e incluso apuntar al riesgo cardiaco futuro. Pero, dado que los dispositivos y los entornos son tan dispares, los algoritmos actuales suelen funcionar bien solo en las situaciones específicas para las que se diseñaron. Este estudio presenta un nuevo tipo de modelo “fundacional” para señales cardiacas que pretende comprender la salud del corazón a través de muchos dispositivos, países y casos de uso a la vez.

Figure 1
Figure 1.

Muchas formas de escuchar el corazón

Los médicos y los dispositivos pueden “escuchar” el corazón de varias maneras. La prueba clásica en el hospital es el electrocardiograma (ECG) de 12 derivaciones, con electrodos colocados en el pecho y las extremidades para registrar la actividad eléctrica cardiaca desde distintos ángulos. Las unidades de cuidados intensivos suelen usar menos derivaciones junto con un sensor óptico llamado fotopletismograma (PPG), que ilumina la piel para seguir el pulso sanguíneo en los vasos. En casa, los relojes inteligentes y los parches pueden registrar solo un canal de ECG o únicamente PPG. Cada una de estas configuraciones genera señales con formas, longitudes y números de canales distintos, lo que ha dificultado crear un único modelo que funcione en todas partes. Los enfoques tradicionales suelen entrenar algoritmos separados y a medida para cada dispositivo y tarea, y fallan al aplicarse en entornos o poblaciones nuevas.

Un único “cerebro” para muchas señales cardiacas

Los investigadores diseñaron un modelo fundacional de detección cardiaca, o CSFM, para actuar como un cerebro común para todas estas señales. En lugar de aprender a partir de un único conjunto de datos ordenado, el CSFM se entrenó con una colección enorme y heterogénea: cerca de 1,7 millones de grabaciones cardiacas procedentes de varios hospitales y países, que incluyen tanto formas de onda de ECG y PPG como los informes de texto que médicos o máquinas escribieron sobre ellas. El modelo divide las señales en segmentos cortos, convierte señales y palabras en tokens y los introduce en un transformer, un tipo de arquitectura de aprendizaje profundo que ha impulsado avances recientes en comprensión del lenguaje y de imágenes. Durante el entrenamiento, se ocultan deliberadamente grandes porciones de tokens, y el modelo aprende a reconstruir las piezas faltantes. Este entrenamiento “enmascarado” empuja al CSFM a capturar los patrones esenciales compartidos entre diferentes dispositivos, derivaciones e idiomas de descripción.

Del diagnóstico a la presión arterial y más allá

Una vez entrenado, el CSFM puede adaptarse a muchos trabajos concretos usando conjuntos de datos etiquetados relativamente pequeños. El equipo lo probó en clasificación de ritmos y enfermedades cardiacas usando ECG estándar de 12 derivaciones, ECG de una sola derivación procedentes de dispositivos portátiles y PPG de relojes inteligentes. No solo igualó, sino que a menudo superó, a redes profundas sólidas diseñadas para tareas específicas. CSFM también ayudó a estimar edad, sexo e índice de masa corporal directamente a partir de segmentos breves de ECG y PPG, mostrando que había absorbido pistas sutiles sobre la persona, no solo sobre el latido. En otro conjunto de experimentos, el modelo transformó ECG y PPG en ondas continuas de presión arterial y luego en valores sistólicos y diastólicos, produciendo estimaciones sin manguito más precisas que métodos competidores.

Figure 2
Figure 2.

Funcionando entre dispositivos y rellenando huecos

Una prueba especialmente importante fue si el CSFM podía manejar situaciones en las que solo está disponible un subconjunto de la información habitual. Los investigadores mostraron que los modelos afinados desde CSFM funcionaban bien tanto si veían las 12 derivaciones del ECG, seis derivaciones, dos derivaciones comunes o incluso una sola derivación. También probaron combinaciones de entradas solo ECG, solo PPG y ECG más PPG. En estas configuraciones, los sistemas basados en CSFM se mantuvieron robustos mientras que los modelos convencionales se degradaron con mayor intensidad. Las representaciones internas del modelo incluso podían usarse como características listas para emplear en herramientas simples como árboles con refuerzo por gradiente, alcanzando a menudo un rendimiento similar al de redes profundas totalmente afinadas. Finalmente, al añadir una cabeza de regresión, CSFM pudo generar un tipo de señal a partir de otra —por ejemplo, producir un ECG realista a partir de una traza PPG o reconstruir un ECG completo de 12 derivaciones a partir de una sola derivación— abriendo la puerta a la augmentación de datos y a un análisis mejorado cuando las grabaciones ideales no están disponibles.

Qué podría significar esto para los pacientes

Para los no especialistas, el mensaje central es que un único modelo de propósito general puede ahora interpretar grabaciones cardiacas muy distintas y seguir ofreciendo respuestas precisas y clínicamente útiles. En lugar de crear un algoritmo frágil por dispositivo y hospital, CSFM ofrece una base compartida que puede adaptarse ligeramente a necesidades locales, desde detectar ritmos peligrosos en un reloj inteligente hasta predecir qué pacientes tienen mayor riesgo de morir en el plazo de un año. Los autores reconocen problemas abiertos, como hacer que las decisiones del modelo sean más fáciles de interpretar para los clínicos y reducir sus demandas computacionales. Aun así, sus resultados sugieren que los modelos fundacionales para señales cardiacas podrían ayudar a llevar monitorización cardiaca avanzada y predicción de riesgo a más personas, en más lugares y con los dispositivos que ya usan.

Cita: Gu, X., Tang, W., Han, J. et al. Cardiac health assessment across scenarios and devices using a multimodal foundation model pretrained on data from 1.7 million individuals. Nat Mach Intell 8, 220–233 (2026). https://doi.org/10.1038/s42256-026-01180-5

Palabras clave: modelo fundacional cardiaco, electrocardiograma, fotopletismografía, cardiología digital, monitorización cardiaca portátil