Clear Sky Science · de

Die Harvard-Emory-ECG-Datenbank

· Zurück zur Übersicht

Warum eine riesige Bibliothek von Herzschlägen wichtig ist

Die elektrischen Schläge des Herzens, festgehalten in einem einfachen Test namens Elektrokardiogramm (EKG), gehören zu den häufigsten Messungen in der modernen Medizin. Bislang standen Forschern jedoch überraschend wenige sehr große, gut organisierte EKG-Sammlungen zur Verfügung. Die Harvard-Emory-ECG-Datenbank (HEEDB) ändert das: Sie vereint Millionen von EKG-Aufzeichnungen aus der routinemäßigen Krankenhausversorgung sowie Informationen darüber, wer die Patienten waren und wie ihre Behandlung verlief. Diese enorme „Herzschlag-Bibliothek“ könnte Wissenschaftlern helfen, Frühwarnzeichen für Herzprobleme zu finden und fairere, genauere Computerwerkzeuge für Ärztinnen und Ärzte zu entwickeln.

Figure 1
Figure 1.

Eine massive Sammlung von Herzsignalen

HEEDB ist derzeit die größte frei zugängliche Sammlung standardmäßiger 12-Kanal-EKGs, wie sie weltweit in Kliniken und Notaufnahmen verwendet werden. Sie enthält mehr als 11,6 Millionen zehnsekündige Aufzeichnungen von über 2,1 Millionen Patientinnen und Patienten, die zwischen 1980 und 2022 im Massachusetts General Hospital in Boston und im Emory University Hospital in Atlanta behandelt wurden. Viele Personen in der Datenbank haben über Monate oder Jahre mehrere EKGs erhalten, wodurch sich ein Zeitverlauf ergibt, wie sich ihre Herzmuster mit dem Alter, bei Krankheit oder während der Genesung veränderten. Durch die Öffnung dieser Ressource für qualifizierte Forschende will das Team bevölkerungsweite Studien zu Herzrhythmen, deren Störungen und dem Zusammenhang dieser Muster mit Gesundheitsfolgen wie Herzinsuffizienz, gefährlichen Arrhythmien und plötzlichem Tod ermöglichen.

Wer die Patientinnen und Patienten sind und wie ihre Daten geschützt werden

Die Datenbank speichert nicht nur Wellenformen; sie enthält auch umfangreiche Hintergrundinformationen zu jeder Person. Für die meisten Patienten sind Alter, Geschlecht und ethnische Zugehörigkeit verfügbar, während eines der Krankenhäuser zusätzlich Angaben wie Bildungsniveau, Sprache und Veteranenstatus bereitstellt. Daten wie Geburtsdatum, Zeitpunkt der EKG-Aufzeichnung, letzter Krankenhausbesuch und Tod liegen in einer sorgfältig veränderten Form vor: Die Daten jeder Person werden zufällig um bis zu ein Jahr verschoben, und alle älteren Personen über 89 Jahren werden in eine gemeinsame Alterskategorie zusammengefasst. Direkte Identifikatoren werden entfernt, und jede Person erhält einen neuen Code, der über verwandte Projekte hinweg konsistent bleibt. Diese Maßnahmen entsprechen etablierten Datenschutzregelungen und wurden von Ethikkommissionen genehmigt; der Datenzugriff wird durch eine Nutzungsvereinbarung kontrolliert, die Versuche zur Reidentifikation verbietet.

Medizinische Bedeutungs‑Schichten über jedem Herzschlag

Jedes EKG in HEEDB ist mit mehreren Interpretationsebenen verknüpft. Zunächst gibt es computererzeugte Aussagen von weit verbreiteter kommerzieller EKG-Analysetools, die Rhythmustypen und mögliche Probleme wie frühere Herzinfarkte oder abnorme elektrische Muster kennzeichnen. Diese Labels wurden für alle Aufzeichnungen mit der neuesten Version der Software neu erzeugt, sodass Forschende Patienten über Jahrzehnte hinweg konsistent vergleichen können. Zweitens enthält die Datenbank für viele EKGs auch die Befunde, die Ärzte bei der Bettenkante notiert haben. Da diese Notizen als Freitext getippt wurden, nutzte das Team Methoden der natürlichen Sprachverarbeitung, um sie in standardisierte Computercodes zu überführen. Anschließend maßen sie, wie stark die automatisierten und die ärztlichen Interpretationen übereinstimmen: In der Regel fanden sie eine starke Überlappung, wiesen aber auch darauf hin, wo Computer und Arzt unterschiedliche Befunde identifizierten.

Verknüpfung von Herzmustern mit Diagnosen und Krankheitsverläufen

Über das auf jedem EKG sichtbare hinaus verknüpft die Datenbank jede Person mit Diagnoseschlüsseln aus ihren elektronischen Gesundheitsakten. Diese Codes aus etablierten internationalen Systemen (ICD-9 und ICD-10) fassen Zustände zusammen – von Bluthochdruck und Diabetes bis hin zu Herzrhythmusstörungen und Lungenerkrankungen – sowie die Zeitpunkte, zu denen diese Diagnosen gestellt wurden. Manche Patientinnen und Patienten haben nur wenige Codes, andere hunderte, was komplexe Krankheitsverläufe widerspiegelt. Die häufigsten Codes in beiden Krankenhäusern beziehen sich auf essentielle Hypertonie und unterstreichen, wie verbreitet hoher Blutdruck unter Personen ist, die EKGs erhalten. Wichtig ist, dass die Autoren betonen, dass EKG-basierte Labels und Diagnoseschlüssel unterschiedliche Aspekte der Versorgung erfassen und sich auf unterschiedliche Klinikbesuche beziehen können; Forschende müssen daher sorgfältig entscheiden, wie sie diese Informationen kombinieren.

Figure 2
Figure 2.

Stärken, Einschränkungen und wie Forschende die Daten nutzen können

Da die EKGs während der gewöhnlichen klinischen Versorgung mit demselben Gerätehersteller aufgenommen wurden, sind die Daten konsistent, enthalten aber auch reale Unvollkommenheiten wie Rauschen und fehlende Ableitungen. Die Autoren stellen grundlegende Qualitätskennzeichen und technische Hinweise bereit, überlassen aber bewusst weitere Bereinigung und Auswahl den Endnutzern, die unterschiedliche Forschungsziele haben können. Sie warnen außerdem, dass alle Aufzeichnungen aus zwei großen US-amerikanischen akademischen Zentren stammen, die ein System eines Anbieters verwenden; daher lassen sich die Ergebnisse möglicherweise nicht vollständig auf andere Regionen oder Geräte übertragen. Dennoch machen die Größe des Datensatzes, die Vielfalt der Patientinnen und Patienten sowie die Verfügbarkeit sowohl automatisierter als auch ärztlicher Interpretationen HEEDB zu einem leistungsfähigen Testfeld für neue Algorithmen und für die Untersuchung von Verzerrungen über demografische Gruppen hinweg.

Was das für die künftige Herzversorgung bedeutet

Im Kern verwandelt die Harvard-Emory-ECG-Datenbank Millionen routinemäßiger Herztests in eine gemeinsame wissenschaftliche Ressource. Für Nichtfachleute liegt ihr Wert in der Möglichkeit, dass in diesen Aufzeichnungen verborgene Muster frühzeitig zeigen könnten, wer ein erhöhtes Risiko für schwere Herzprobleme hat, lange bevor Symptome auftreten, und ob heutige Werkzeuge für Menschen unterschiedlichen Alters, Geschlechts und Hintergrunds gleichermaßen gut funktionieren. Indem sorgfältig de-identifizierte Daten breit verfügbar gemacht werden, schafft das Projekt die Grundlage für präzisere, datengetriebene Kardiologie und für computerunterstützte Entscheidungsinstrumente, die sowohl leistungsfähig als auch gerecht sind.

Zitation: Koscova, Z., Li, Q., Robichaux, C. et al. The Harvard-Emory ECG Database. Sci Data 13, 516 (2026). https://doi.org/10.1038/s41597-026-06861-9

Schlüsselwörter: Elektrokardiogramm, Herz-Kreislauf-Erkrankung, medizinische Datensätze, Maschinelles Lernen in der Medizin, Herzrhythmus