Clear Sky Science · sv

Harvard–Emorys EKG-databas

· Tillbaka till index

Varför ett jättelikt bibliotek av hjärtslag spelar roll

Hjärtats elektriska slag, fångade i ett enkelt test kallat elektrokardiogram (EKG), är bland de vanligaste mätningarna i modern medicin. Ändå har forskare hittills haft förvånansvärt få mycket stora, välorganiserade EKG-samlingar att studera. Harvard–Emory ECG Database (HEEDB) förändrar det: den samlar miljontals EKG-inspelningar från vardaglig sjukhusvård, tillsammans med information om vilka patienterna var och vad som hände dem. Detta massiva ”hjärtslagsbibliotek” kan hjälpa forskare att hitta tidiga varningstecken på hjärtproblem och bygga rättvisare, mer precisa datorverktyg för läkare.

Figure 1
Figure 1.

En massiv samling hjärtsignaler

HEEDB är för närvarande den största öppet tillgängliga samlingen av standardiserade 12‑ledars EKG, den typ som används i kliniker och akutmottagningar världen över. Den innehåller mer än 11,6 miljoner tiosekundersinspelningar från över 2,1 miljoner patienter som vårdats vid Massachusetts General Hospital i Boston och Emory University Hospital i Atlanta mellan 1980 och 2022. Många personer i databasen har haft flera EKG tagna över månader eller år, vilket ger en tidslinje över hur deras hjärtmönster förändrats när de åldrats, blivit sjuka eller återhämtat sig. Genom att öppna denna resurs för kvalificerade forskare vill teamet möjliggöra populationsskaliga studier av hjärtrytmer, deras störningar och hur dessa mönster förhåller sig till hälsoutfall som hjärtsvikt, farliga arytmier och plötslig död.

Vilka patienterna är och hur deras data skyddas

Databasen lagrar inte bara vågformer; den innehåller också rik bakgrundsinformation för varje person. För de flesta patienter kan forskare se ålder, kön och ras, medan ett sjukhus också tillhandahåller detaljer som utbildningsnivå, språk och veteranstatus. Datum som födelse, EKG-inspelning, sista sjukhusbesök och död finns tillgängliga i en noggrant förändrad form: varje patients datum förskjuts slumpmässigt med upp till ett år, och alla äldre än 89 grupperas i en enda ålderskategori. Direkta identifierare tas bort och varje person tilldelas en ny kod som är konsekvent över relaterade projekt. Dessa åtgärder följer etablerade sekretessregler och godkändes av etikkommittéer, med dataåtkomst styrd av ett användningsavtal som förbjuder försök att ”återidentifiera” individer.

Flera medicinska tolkningslager ovanpå varje hjärtslag

Varje EKG i HEEDB är kopplat till flera tolkningslager. Först finns datorgenererade uttalanden från välanvänd kommersiell EKG‑analysprogramvara, som markerar rytmtyper och möjliga problem såsom tidigare hjärtinfarkter eller onormala elektriska mönster. Dessa etiketter regenererades för alla inspelningar med den senaste versionen av programvaran så att forskare kan jämföra patienter över decennier på ett konsekvent sätt. För det andra innehåller databasen för många EKG också vad läkare skrev när de granskat spåren i sängkanten. Eftersom dessa anteckningar skrevs som fri text använde teamet metoder för naturlig språkbehandling för att översätta dem tillbaka till standardiserade datorformat. De mätte sedan hur väl de automatiska och mänskliga tolkningarna överensstämde, och fann generellt stark överlappning men också områden där datorn och läkaren såg olika saker.

Koppla hjärtmönster till diagnoser och sjukdomshistoria

Bortom vad som syns på varje EKG‑remsa länkar databasen varje patient till diagnoskoder hämtade från deras elektroniska journaler. Dessa koder, från långvariga internationella system (ICD‑9 och ICD‑10), sammanfattar tillstånd från högt blodtryck och diabetes till hjärtrytmstörningar och lungsjukdom, tillsammans med datum när diagnoserna ställdes. Vissa patienter har bara några få koder, medan andra har hundratals, vilket speglar komplexa medicinska historier. De vanligaste koderna på båda sjukhusen rör essentiell hypertoni, vilket understryker hur utbrett högt blodtryck är bland personer som genomgår EKG‑undersökning. Författarna framhåller viktigt att EKG‑baserade etiketter och diagnoskoder fångar olika aspekter av vården och kan hänvisa till olika besök, så forskare måste noga överväga hur de kombineras.

Figure 2
Figure 2.

Styrkor, begränsningar och hur forskare kan använda det

Där EKG utförts under vanlig klinisk vård med samma märke av utrustning är data konsekventa men innehåller också verkliga imperfektioner som brus och saknade ledningar. Författarna tillhandahåller grundläggande kvalitetsflaggor och tekniska anteckningar men lämnar medvetet vidare rengöring och urval till slutanvändarna, som kan ha olika forskningsmål. De varnar också för att alla inspelningar kommer från två stora amerikanska universitetskliniker som använder en leverantörs system, så resultaten kanske inte fullt ut generaliseras till andra regioner eller enheter. Trots detta gör datasetets storlek, patienternas mångfald och tillgången till både automatiska och läkartolkningar HEEDB till en kraftfull testbädd för nya algoritmer och för studier av bias över demografiska grupper.

Vad detta betyder för framtidens hjärtvård

I korthet förvandlar Harvard–Emory ECG Database miljontals rutinmässiga hjärttester till en gemensam vetenskaplig resurs. För en icke‑specialist ligger värdet i möjligheten att mönster dolda i dessa inspelningar kan avslöja vem som löper risk för allvarliga hjärtproblem långt innan symtom uppträder, och om nuvarande verktyg fungerar lika bra för människor i olika åldrar, kön och bakgrunder. Genom att göra noggrant avidentifierade data brett tillgängliga lägger projektet grunden för mer precis, datadriven kardiologi och för datorstödda beslutsverktyg som både är kraftfulla och rättvisa.

Citering: Koscova, Z., Li, Q., Robichaux, C. et al. The Harvard-Emory ECG Database. Sci Data 13, 516 (2026). https://doi.org/10.1038/s41597-026-06861-9

Nyckelord: elektrokardiogram, hjärt-kärlsjukdom, medicinska datamängder, maskininlärning inom medicin, hjärtrytm