Clear Sky Science · es
La base de datos ECG Harvard-Emory
Por qué importa una gigantesca biblioteca de latidos
Los latidos eléctricos del corazón, captados en una prueba simple llamada electrocardiograma (ECG), son una de las mediciones más comunes en la medicina moderna. Sin embargo, hasta ahora los investigadores disponían de sorprendentemente pocas colecciones de ECG muy grandes y bien organizadas para estudiar. La base de datos ECG Harvard‑Emory (HEEDB) cambia eso: reúne millones de registros de ECG procedentes de la atención hospitalaria cotidiana, junto con información sobre quiénes eran los pacientes y qué les ocurrió. Esta enorme “biblioteca de latidos” podría ayudar a los científicos a encontrar señales tempranas de problemas cardíacos y a crear herramientas informáticas más justas y precisas para los médicos.

Una colección masiva de señales cardíacas
HEEDB es actualmente la mayor colección de acceso abierto de ECG estándar de 12 derivaciones, el tipo utilizado en consultas y salas de urgencias en todo el mundo. Contiene más de 11,6 millones de grabaciones de diez segundos procedentes de más de 2,1 millones de pacientes atendidos en el Massachusetts General Hospital en Boston y el Emory University Hospital en Atlanta entre 1980 y 2022. Muchas personas de la base de datos se sometieron a varios ECG a lo largo de meses o años, lo que muestra una línea temporal de cómo cambiaron los patrones cardiacos a medida que envejecían, enfermaban o se recuperaban. Al abrir este recurso a investigadores cualificados, el equipo pretende posibilitar estudios a escala poblacional sobre ritmos cardíacos, sus alteraciones y cómo estos patrones se relacionan con resultados de salud como insuficiencia cardíaca, arritmias peligrosas y muerte súbita.
Quiénes son los pacientes y cómo se protege su información
La base de datos no solo almacena formas de onda; también incluye información contextual detallada para cada persona. Para la mayoría de los pacientes, los investigadores pueden ver edad, sexo y raza, mientras que uno de los hospitales aporta además detalles como nivel educativo, idioma y condición de veterano. Fechas como nacimiento, registro del ECG, última visita hospitalaria y fallecimiento están disponibles en una forma cuidadosamente alterada: las fechas de cada paciente se desplazan aleatoriamente hasta un año, y cualquier persona mayor de 89 años se agrupa en una única franja de edad. Se eliminan los identificadores directos y a cada persona se le asigna un código nuevo que es consistente entre proyectos relacionados. Estas medidas siguen normas de privacidad establecidas y fueron aprobadas por comités de ética, y el acceso a los datos está controlado por un acuerdo de uso que prohíbe intentos de “reidentificar” a las personas.
Capas de significado médico sobre cada latido
Cada ECG en HEEDB está vinculado a varias capas de interpretación. Primero, hay declaraciones generadas por ordenador de un software comercial de análisis de ECG ampliamente usado, que marca tipos de ritmo y problemas posibles, como infartos previos o patrones eléctricos anómalos. Estas etiquetas se regeneraron para todas las grabaciones usando la versión más reciente del software para que los investigadores puedan comparar pacientes a lo largo de décadas de manera coherente. Segundo, para muchos ECG la base de datos también incluye lo que escribieron los médicos cuando revisaron las trazas en la cabecera del paciente. Como estas notas se escribieron en texto libre, el equipo empleó métodos de procesamiento de lenguaje natural para convertirlas a códigos informáticos estandarizados. Luego midieron cuán de cerca coincidían las interpretaciones automáticas y las humanas, encontrando generalmente una fuerte superposición pero también señalando donde el ordenador y el médico vieron las cosas de forma diferente.
Conectar patrones cardíacos con diagnósticos e historia de enfermedad
Más allá de lo visible en cada tira de ECG, la base de datos vincula a cada paciente con códigos de diagnóstico extraídos de sus registros electrónicos de salud. Estos códigos, de sistemas internacionales de larga trayectoria (CIE‑9 y CIE‑10), resumen condiciones que van desde hipertensión y diabetes hasta trastornos del ritmo cardíaco y enfermedades pulmonares, junto con las fechas en que se realizaron esos diagnósticos. Algunos pacientes tienen solo unos pocos códigos, mientras que otros acumulan cientos, reflejando historias médicas complejas. Los códigos más comunes en ambos hospitales se relacionan con hipertensión esencial, subrayando lo extendida que está la presión arterial alta entre las personas que se someten a pruebas de ECG. Es importante destacar que los autores señalan que las etiquetas basadas en ECG y los códigos de diagnóstico capturan aspectos distintos de la atención y pueden referirse a visitas diferentes, por lo que los investigadores deben decidir con cuidado cómo combinarlos.

Fortalezas, limitaciones y cómo pueden usarla los investigadores
Como los ECG se recopilaron durante la atención clínica ordinaria con la misma marca de equipo, los datos son consistentes pero también contienen imperfecciones del mundo real, como ruido y derivaciones faltantes. Los autores proporcionan indicadores básicos de calidad y notas técnicas, pero dejan deliberadamente la limpieza y la selección adicionales a los usuarios finales, que pueden tener diferentes objetivos de investigación. También advierten que todas las grabaciones proceden de dos grandes centros académicos de EE. UU. que usan el sistema de un único proveedor, por lo que los hallazgos podrían no generalizarse por completo a otras regiones o dispositivos. Aun así, el tamaño del conjunto de datos, la diversidad de los pacientes y la disponibilidad de interpretaciones tanto automatizadas como médicas hacen de HEEDB un banco de pruebas potente para nuevos algoritmos y para estudiar sesgos entre grupos demográficos.
Qué supone esto para la atención cardíaca futura
En esencia, la base de datos ECG Harvard‑Emory convierte millones de pruebas cardíacas de rutina en un recurso científico compartido. Para un no especialista, su valor radica en la posibilidad de que patrones ocultos en estas grabaciones revelen quién tiene riesgo de sufrir problemas cardíacos graves mucho antes de que aparezcan síntomas, y si las herramientas actuales funcionan por igual para personas de distintas edades, sexos y orígenes. Al poner a disposición datos cuidadosamente desidentificados de forma amplia, el proyecto sienta las bases para una cardiología más precisa dirigida por datos y para herramientas de ayuda a la decisión asistidas por ordenador que sean a la vez potentes y justas.
Cita: Koscova, Z., Li, Q., Robichaux, C. et al. The Harvard-Emory ECG Database. Sci Data 13, 516 (2026). https://doi.org/10.1038/s41597-026-06861-9
Palabras clave: electrocardiograma, enfermedad cardiovascular, conjuntos de datos médicos, aprendizaje automático en medicina, ritmo cardíaco