Clear Sky Science · fr
La base de données ECG Harvard-Emory
Pourquoi une immense bibliothèque de battements cardiaques compte
Les battements électriques du cœur, enregistrés par un test simple appelé électrocardiogramme (ECG), figurent parmi les mesures les plus courantes en médecine moderne. Pourtant, jusqu’à présent, les chercheurs disposaient étonnamment de peu de collections d’ECG très larges et bien organisées à étudier. La base de données ECG Harvard‑Emory (HEEDB) change la donne : elle regroupe des millions d’enregistrements ECG issus des soins hospitaliers courants, ainsi que des informations sur l’identité des patients et leur sort. Cette massive « bibliothèque de battements » pourrait aider les scientifiques à détecter des signes précoces de problèmes cardiaques et à concevoir des outils informatiques plus justes et plus précis pour les praticiens.

Une collection massive de signaux cardiaques
HEEDB est actuellement la plus grande collection en accès libre d’ECG standards à 12 dérivations, du type utilisé dans les cliniques et les services d’urgence du monde entier. Elle contient plus de 11,6 millions d’enregistrements de dix secondes provenant de plus de 2,1 millions de patients vus au Massachusetts General Hospital à Boston et à l’Emory University Hospital à Atlanta entre 1980 et 2022. De nombreuses personnes de la base ont passé plusieurs ECG sur des mois ou des années, offrant une chronologie des évolutions de leurs motifs cardiaques à mesure qu’elles vieillissaient, tombaient malades ou se rétablissaient. En ouvrant cette ressource aux chercheurs qualifiés, l’équipe vise à permettre des études à l’échelle populationnelle des rythmes cardiaques, de leurs perturbations et de la façon dont ces motifs se rapportent à des issues de santé telles que l’insuffisance cardiaque, les arythmies dangereuses et la mort subite.
Qui sont les patients et comment leurs données sont protégées
La base ne se contente pas de stocker des formes d’onde ; elle comprend aussi des informations de contexte riches pour chaque personne. Pour la plupart des patients, les chercheurs peuvent connaître l’âge, le sexe et la race, tandis qu’un hôpital fournit également des détails comme le niveau d’éducation, la langue et le statut de vétéran. Les dates — naissance, enregistrement de l’ECG, dernière visite hospitalière et décès — sont disponibles sous une forme soigneusement modifiée : les dates de chaque patient sont déplacées aléatoirement d’un maximum d’un an, et toute personne de plus de 89 ans est regroupée dans une seule tranche d’âge. Les identifiants directs sont supprimés et chaque personne se voit attribuer un nouveau code cohérent entre projets liés. Ces mesures suivent des règles de confidentialité établies et ont été approuvées par des comités d’éthique, l’accès aux données étant contrôlé par un accord d’utilisation qui interdit toute tentative de « ré‑identification » des individus.
Des couches de sens médical au‑dessus de chaque battement
Chaque ECG de HEEDB est associé à plusieurs niveaux d’interprétation. D’abord, il y a des déclarations générées par ordinateur via des logiciels commerciaux d’analyse ECG largement utilisés, qui signalent les types de rythme et des problèmes possibles comme des antécédents d’infarctus ou des anomalies électriques. Ces étiquettes ont été régénérées pour tous les enregistrements avec la version la plus récente du logiciel afin que les chercheurs puissent comparer des patients sur des décennies de façon cohérente. Ensuite, pour de nombreux ECG, la base inclut aussi ce que les médecins ont rédigé lorsqu’ils ont examiné les tracés au chevet. Parce que ces notes ont été tapées en texte libre, l’équipe a utilisé des méthodes de traitement automatique du langage pour les traduire en codes informatiques standardisés. Ils ont ensuite mesuré la concordance entre les interprétations automatisées et humaines, observant en général un fort recoupement mais aussi mettant en évidence les domaines où l’ordinateur et le médecin avaient des lectures différentes.
Relier les motifs cardiaques aux diagnostics et à l’historique des maladies
Au‑delà de ce qui est visible sur chaque bande d’ECG, la base relie chaque patient à des codes de diagnostic extraits de leurs dossiers médicaux électroniques. Ces codes, issus de systèmes internationaux de longue date (CIM‑9 et CIM‑10), résument des affections allant de l’hypertension artérielle et du diabète aux troubles du rythme cardiaque et aux maladies pulmonaires, ainsi que les dates auxquelles ces diagnostics ont été posés. Certains patients n’ont que quelques codes, tandis que d’autres en ont des centaines, reflet d’histoires médicales complexes. Les codes les plus fréquents dans les deux hôpitaux concernent l’hypertension essentielle, soulignant la prévalence de l’hypertension chez les personnes soumises à un ECG. Il est important de noter que les étiquettes basées sur l’ECG et les codes de diagnostic capturent des aspects différents des soins et peuvent se référer à des visites distinctes ; les chercheurs doivent donc décider avec soin comment les combiner.

Forces, limites et façons dont les chercheurs peuvent l’utiliser
Parce que les ECG ont été collectés lors de soins cliniques ordinaires avec la même marque d’équipement, les données sont cohérentes mais contiennent aussi des imperfections du monde réel telles que le bruit et des dérivations manquantes. Les auteurs fournissent des indicateurs de qualité de base et des notes techniques mais laissent délibérément le nettoyage et la sélection ultérieurs aux utilisateurs finaux, qui peuvent avoir des objectifs de recherche variés. Ils avertissent également que tous les enregistrements proviennent de deux grands centres universitaires américains utilisant le système d’un seul fournisseur, de sorte que les résultats pourraient ne pas se généraliser pleinement à d’autres régions ou appareils. Malgré cela, la taille de l’ensemble de données, la diversité des patients et la disponibilité des interprétations automatisées et médicales font de HEEDB un terrain d’essai puissant pour de nouveaux algorithmes et pour l’étude des biais entre groupes démographiques.
Ce que cela signifie pour les soins cardiaques futurs
Essentiellement, la base de données ECG Harvard‑Emory transforme des millions de tests cardiaques de routine en une ressource scientifique partagée. Pour un non‑spécialiste, sa valeur réside dans la possibilité que des motifs cachés dans ces enregistrements révèlent qui est à risque de problèmes cardiaques graves bien avant l’apparition des symptômes, et si les outils actuels fonctionnent de manière équivalente pour des personnes de différents âges, sexes et origines. En rendant des données soigneusement dé‑identifiées largement accessibles, le projet jette les bases d’une cardiologie plus précise, fondée sur les données, et d’outils d’aide à la décision assistés par ordinateur qui soient à la fois efficaces et équitables.
Citation: Koscova, Z., Li, Q., Robichaux, C. et al. The Harvard-Emory ECG Database. Sci Data 13, 516 (2026). https://doi.org/10.1038/s41597-026-06861-9
Mots-clés: électrocardiogramme, maladies cardiovasculaires, ensembles de données médicales, apprentissage automatique en médecine, rythme cardiaque