Clear Sky Science · pl

Baza danych EKG Harvard-Emory

· Powrót do spisu

Dlaczego ogromna biblioteka uderzeń serca ma znaczenie

Elektrochemiczne impulsy serca, rejestrowane w prostym badaniu zwanym elektrokardiogramem (EKG), należą do najpowszechniejszych pomiarów we współczesnej medycynie. A jednak do tej pory badacze mieli zaskakująco niewiele bardzo dużych, dobrze uporządkowanych kolekcji EKG do analizy. Baza danych EKG Harvard-Emory (HEEDB) zmienia ten stan rzeczy: łączy miliony zapisów EKG z codziennej opieki szpitalnej wraz z informacjami o tożsamości pacjentów i przebiegu ich choroby. Ta ogromna „biblioteka uderzeń serca” może pomóc naukowcom wykrywać wczesne symptomy problemów sercowych i tworzyć sprawiedliwsze, bardziej precyzyjne narzędzia komputerowe dla lekarzy.

Figure 1
Figure 1.

Ogromny zbiór sygnałów serca

HEEDB jest obecnie największym zbiorem EKG 12-odprowadzeniowych udostępnionym publicznie, czyli tym typem, który stosuje się w przychodniach i izbach przyjęć na całym świecie. Zawiera ponad 11,6 miliona, dziesięciosekundowych zapisów od ponad 2,1 miliona pacjentów przyjętych w Massachusetts General Hospital w Bostonie oraz Emory University Hospital w Atlancie w latach 1980–2022. Wiele osób w bazie miało wykonane kilka EKG w ciągu miesięcy lub lat, co tworzy oś czasu pokazującą, jak zmieniały się wzorce sercowe wraz ze starzeniem, zachorowaniem lub wyzdrowieniem. Otwarcie tego zasobu dla kwalifikowanych badaczy ma umożliwić badania rytmów serca na skalę populacyjną, ich zaburzeń oraz związku tych wzorców z wynikami zdrowotnymi, takimi jak niewydolność serca, groźne arytmie i nagła śmierć.

Kto jest wśród pacjentów i jak chronione są ich dane

Baza nie przechowuje jedynie przebiegów fal; zawiera także obszerne informacje kontekstowe o każdej osobie. Dla większości pacjentów badacze mają dostęp do wieku, płci i rasy, a jeden z szpitali udostępnia dodatkowo dane takie jak poziom wykształcenia, język i status weterana. Daty — na przykład urodzenia, wykonania EKG, ostatniej wizyty w szpitalu czy zgonu — są dostępne w starannie zmienionej formie: daty każdego pacjenta są losowo przesunięte do roku, a osoby starsze niż 89 lat grupowane są w jedną kategorię wiekową. Usunięto bezpośrednie identyfikatory, a każdej osobie przydzielono nowy kod, spójny w powiązanych projektach. Te kroki są zgodne z ustalonymi zasadami prywatności i zatwierdzone przez komisje etyczne, a dostęp do danych kontrolowany jest umową użytkowania zabraniającą prób „reidentyfikacji” osób.

Wielowarstwowe znaczenie medyczne nad każdym uderzeniem

Każde EKG w HEEDB jest powiązane z kilkoma warstwami interpretacji. Po pierwsze, istnieją wygenerowane komputerowo opisy z powszechnie używanego komercyjnego oprogramowania do analizy EKG, które oznacza rodzaje rytmu i możliwe problemy, takie jak przebyte zawały czy nieprawidłowe wzorce elektryczne. Etykiety te zostały ponownie wygenerowane dla wszystkich zapisów przy użyciu najnowszej wersji oprogramowania, aby badacze mogli porównywać pacjentów na przestrzeni dekad w sposób spójny. Po drugie, dla wielu EKG baza zawiera także to, co lekarze wpisywali, gdy przeglądali zapis przy łóżku pacjenta. Ponieważ te notatki były pisane jako tekst swobodny, zespół użył metod przetwarzania języka naturalnego, aby przekształcić je z powrotem w ustandaryzowane kody komputerowe. Następnie zmierzyli, jak bardzo automatyczne i lekarskie interpretacje pokrywają się ze sobą, zwykle znajdując silne podobieństwo, ale także wskazując obszary, w których komputer i lekarz widzieli różnice.

Łączenie wzorców serca z rozpoznaniami i historią chorób

Ponad to, co widoczne na każdym pasku EKG, baza łączy każdego pacjenta z kodami rozpoznań pochodzącymi z ich elektronicznych kart zdrowia. Kody te, pochodzące ze stosowanych od dawna międzynarodowych systemów (ICD-9 i ICD-10), podsumowują schorzenia od nadciśnienia i cukrzycy po zaburzenia rytmu serca i choroby płuc, wraz z datami postawienia tych rozpoznań. Niektórzy pacjenci mają tylko kilka kodów, inni setki, co odzwierciedla złożone historie medyczne. Najczęściej występujące kody w obu szpitalach dotyczą nadciśnienia tętniczego pierwotnego, co podkreśla, jak powszechne jest wysokie ciśnienie u osób poddawanych badaniu EKG. Autorzy podkreślają, że etykiety oparte na EKG i kody rozpoznań oddają różne aspekty opieki i mogą odnosić się do różnych wizyt, dlatego badacze muszą ostrożnie decydować, jak je łączyć.

Figure 2
Figure 2.

Mocne strony, ograniczenia i jak badacze mogą tego użyć

Ponieważ EKG zbierano podczas zwykłej opieki klinicznej przy użyciu tej samej marki sprzętu, dane są spójne, ale zawierają też rzeczywiste niedoskonałości, takie jak szum czy brakujące odprowadzenia. Autorzy udostępniają podstawowe flagi jakości i uwagi techniczne, ale świadomie pozostawiają dalsze czyszczenie i wybór końcowym użytkownikom, którzy mogą mieć różne cele badawcze. Ostrzegają także, że wszystkie zapisy pochodzą z dwóch dużych amerykańskich ośrodków akademickich korzystających z systemu jednego dostawcy, więc wyniki mogą nie w pełni uogólniać się na inne regiony czy urządzenia. Mimo to rozmiar zbioru, różnorodność pacjentów oraz dostępność zarówno automatycznych, jak i lekarskich interpretacji czynią HEEDB potężnym polem testowym dla nowych algorytmów i do badania stronniczości w różnych grupach demograficznych.

Co to oznacza dla przyszłej opieki sercowej

W istocie Baza Danych EKG Harvard-Emory przekształca miliony rutynowych badań serca w wspólny zasób naukowy. Dla osoby niebędącej specjalistą jej wartość polega na możliwości, że wzorce ukryte w tych zapisach mogą ujawnić, kto jest narażony na poważne problemy sercowe znacznie wcześniej niż pojawią się objawy, oraz czy obecne narzędzia działają równie dobrze dla osób w różnym wieku, różnych płci i o odmiennym pochodzeniu. Poprzez udostępnienie starannie zanonimizowanych danych szerokiemu gronu badaczy, projekt tworzy podstawy dla bardziej precyzyjnej, opartej na danych kardiologii oraz dla wspomaganych komputerowo narzędzi decyzyjnych, które będą jednocześnie skuteczne i sprawiedliwe.

Cytowanie: Koscova, Z., Li, Q., Robichaux, C. et al. The Harvard-Emory ECG Database. Sci Data 13, 516 (2026). https://doi.org/10.1038/s41597-026-06861-9

Słowa kluczowe: elektrokardiogram, choroby układu krążenia, zbiory danych medycznych, uczenie maszynowe w medycynie, rytmy serca