Clear Sky Science · nl

De Harvard-Emory ECG-database

· Terug naar het overzicht

Waarom een gigantische hartslagbibliotheek ertoe doet

De elektrische slagen van het hart, vastgelegd in een eenvoudig onderzoek dat een elektrocardiogram (ECG) heet, behoren tot de meest gebruikte metingen in de moderne geneeskunde. Tot nu toe hadden onderzoekers echter verrassend weinig zeer grote, goed georganiseerde ECG-verzamelingen om te bestuderen. De Harvard-Emory ECG Database (HEEDB) verandert dat: ze brengt miljoenen ECG-opnames uit de dagelijkse ziekenhuiszorg samen, samen met informatie over wie de patiënten waren en wat er met hen gebeurde. Deze enorme “hartslagbibliotheek” kan wetenschappers helpen vroegtijdige aanwijzingen voor hartproblemen te vinden en eerlijkere, nauwkeurigere computergereedschappen voor artsen te ontwikkelen.

Figure 1
Figure 1.

Een kolossale verzameling hartsignalen

HEEDB is momenteel de grootste open-toegankelijke verzameling van standaard 12-afleidings-ECGs, het type dat wereldwijd in klinieken en spoedafdelingen wordt gebruikt. Het bevat meer dan 11,6 miljoen opnames van tien seconden van meer dan 2,1 miljoen patiënten die tussen 1980 en 2022 gezien zijn in het Massachusetts General Hospital in Boston en het Emory University Hospital in Atlanta. Veel mensen in de database hadden meerdere ECGs verspreid over maanden of jaren, wat een tijdlijn oplevert van hoe hun hartritmes veranderden naarmate ze ouder werden, ziek werden of herstelden. Door deze bron open te stellen voor gekwalificeerde onderzoekers wil het team populatieonderzoek naar hartritmes, hun verstoringen en hoe deze patronen samenhangen met gezondheidsuitkomsten zoals hartfalen, gevaarlijke ritmestoornissen en plotselinge dood mogelijk maken.

Wie de patiënten zijn en hoe hun gegevens beschermd worden

De database slaat niet alleen golfvormen op; ze bevat ook uitgebreide achtergrondinformatie voor elke persoon. Voor de meeste patiënten kunnen onderzoekers leeftijd, geslacht en ras inzien, terwijl één ziekenhuis ook gegevens levert zoals opleidingsniveau, taal en veteranenstatus. Datums zoals geboorte, ECG-opname, laatste ziekenhuisbezoek en overlijden zijn beschikbaar in een zorgvuldig aangepast formaat: de datums van elke patiënt zijn willekeurig verschoven met maximaal een jaar en iedereen ouder dan 89 wordt in één leeftijdscategorie samengevoegd. Directe identificatoren zijn verwijderd en elke persoon krijgt een nieuwe code die consistent is over gerelateerde projecten. Deze stappen volgen gevestigde privacyregels en zijn goedgekeurd door ethische commissies, waarbij de toegang tot de gegevens wordt gecontroleerd door een gebruiksovereenkomst die pogingen tot heridentificatie van individuen verbiedt.

Meerdimensionale medische betekenis bovenop elke hartslag

Elk ECG in HEEDB is gekoppeld aan meerdere interpretatielagen. Ten eerste zijn er computergegenereerde uitspraken van veelgebruikte commerciële ECG-analysetools, die ritmetypes en mogelijke problemen markeren, zoals eerdere hartaanvallen of afwijkende elektrische patronen. Deze labels zijn voor alle opnames opnieuw gegenereerd met de meest recente versie van de software, zodat onderzoekers patiënten over decennia op een consistente manier kunnen vergelijken. Ten tweede bevat de database voor veel ECGs ook wat menselijke artsen hebben geschreven toen ze de tracés bij het bed beoordeelden. Omdat deze aantekeningen als vrije tekst werden ingevoerd, gebruikte het team methoden voor natuurlijke taalverwerking om ze terug te vertalen naar gestandaardiseerde computercodes. Vervolgens maten ze hoe sterk de automatische en menselijke interpretaties overeenkwamen: over het algemeen was er veel overlap, maar er werden ook gebieden belicht waar computer en arts anders keken.

Het verbinden van hartritmes met diagnoses en ziektegeschiedenis

Voorbij wat zichtbaar is op elke ECG-strook koppelt de database elke patiënt aan diagnosecodes uit hun elektronische patiëntendossiers. Deze codes, afkomstig uit langgebruikte internationale systemen (ICD-9 en ICD-10), vatten aandoeningen samen variërend van hoge bloeddruk en diabetes tot hartritmestoornissen en longziekten, samen met de datums waarop die diagnoses werden gesteld. Sommige patiënten hebben slechts een paar codes, terwijl anderen er honderden hebben, wat complexe medische geschiedenissen weerspiegelt. De meest voorkomende codes in beide ziekenhuizen hebben betrekking op essentible hypertensie, wat benadrukt hoe wijdverspreid hoge bloeddruk is onder mensen die ECGs ondergaan. Belangrijk is dat de auteurs benadrukken dat ECG-gebaseerde labels en diagnosecodes verschillende aspecten van de zorg vastleggen en naar verschillende bezoeken kunnen verwijzen, dus onderzoekers moeten zorgvuldig beslissen hoe ze deze samenvoegen.

Figure 2
Figure 2.

Sterke punten, beperkingen en hoe onderzoekers het kunnen gebruiken

Omdat de ECGs werden verzameld tijdens gewone klinische zorg met hetzelfde merk apparatuur, zijn de gegevens consistent maar bevatten ze ook reeble imperfecties uit de praktijk zoals ruis en ontbrekende afleidingen. De auteurs geven basale kwaliteitsindicatoren en technische aantekeningen, maar laten verdere schoonmaak en selectie bewust over aan eindgebruikers, die verschillende onderzoeksdoelen kunnen hebben. Ze waarschuwen ook dat alle opnames afkomstig zijn van twee grote Amerikaanse academische centra die één leverancierssysteem gebruiken, dus resultaten zijn mogelijk niet volledig generaliseerbaar naar andere regios of apparaten. Desondanks maken de omvang van de dataset, de diversiteit van de patiënten en de beschikbaarheid van zowel geautomatiseerde als artsinterpretaties HEEDB tot een krachtig testplatform voor nieuwe algoritmen en voor het bestuderen van vooringenomenheid tussen demografische groepen.

Wat dit betekent voor toekomstige hartzorg

In wezen verandert de Harvard-Emory ECG Database miljoenen routinematige hartonderzoeken in een gedeelde wetenschappelijke hulpbron. Voor niet-specialisten schuilt de waarde in de mogelijkheid dat patronen die in deze opnames verborgen liggen kunnen aantonen wie op lange termijn risico loopt op ernstige hartproblemen, nog voordat symptomen optreden, en of huidige hulpmiddelen even goed werken voor mensen van verschillende leeftijden, geslachten en achtergronden. Door zorgvuldig gede-identificeerde gegevens breed beschikbaar te maken, legt het project de basis voor meer precieze, data-gedreven cardiologie en voor computerondersteunde beslissingshulpmiddelen die zowel krachtig als eerlijk zijn.

Bronvermelding: Koscova, Z., Li, Q., Robichaux, C. et al. The Harvard-Emory ECG Database. Sci Data 13, 516 (2026). https://doi.org/10.1038/s41597-026-06861-9

Trefwoorden: elektrocardiogram, cardiovasculaire ziekte, medische datasets, machine learning in de geneeskunde, hartritme