Clear Sky Science · ru

База данных ЭКГ Гарварда и Эмори

· Назад к списку

Почему нужна гигантская библиотека сердечных сокращений

Электрические импульсы сердца, фиксируемые в простом тесте — электрокардиограмме (ЭКГ), — являются одними из самых распространённых измерений в современной медицине. Тем не менее до недавнего времени у исследователей было удивительно мало больших, хорошо организованных коллекций ЭКГ для изучения. База данных ЭКГ Гарварда и Эмори (HEEDB) меняет эту ситуацию: она объединяет миллионы записей ЭКГ, полученных в повседневной клинической практике, вместе с информацией о пациентах и их исходах. Эта масштабная «библиотека сокращений» может помочь учёным обнаруживать ранние признаки проблем с сердцем и создавать более справедливые и точные компьютерные инструменты для врачей.

Figure 1
Figure 1.

Огромная коллекция сердечных сигналов

HEEDB на данный момент является крупнейшей открытой коллекцией стандартных 12‑отведенных ЭКГ — того типа, который используют в поликлиниках и отделениях неотложной помощи по всему миру. Она содержит более 11,6 миллиона десятисекундных записей от более чем 2,1 миллиона пациентов, обследованных в больнице Massachusetts General Hospital в Бостоне и в больнице университета Эмори в Атланте в период с 1980 по 2022 год. У многих людей в базе имеется несколько ЭКГ, снятых в разные месяцы или годы, что даёт хронологию изменений сердечных шаблонов по мере старения, развития болезни или восстановления. Открывая этот ресурс для квалифицированных исследователей, команда ставит цель обеспечить возможность популяционных исследований ритмов сердца, их нарушений и связи этих паттернов с исходами — такими как сердечная недостаточность, опасные аритмии и внезапная смерть.

Кто пациенты и как защищены их данные

База данных хранит не только волновые формы; она также содержит подробную справочную информацию о каждом человеке. Для большинства пациентов доступны возраст, пол и раса, а одна из больниц дополнительно предоставляет сведения об уровне образования, языке и статусе ветерана. Даты — например рождения, записи ЭКГ, последнего визита в больницу и смерти — доступны в специально модифицированном виде: даты каждого пациента случайным образом сдвинуты до года, а все лица старше 89 включены в одну возрастную группу. Прямые идентификаторы удалены, и каждому человеку присвоен новый код, сохраняющийся в связанных проектах. Эти меры соответствуют установленным правилам конфиденциальности и были одобрены этическими комитетами; доступ к данным контролируется соглашением об использовании, запрещающим попытки «реидентификации» лиц.

Многослойная медицинская интерпретация каждой ЭКГ

Каждая ЭКГ в HEEDB связана с несколькими уровнями интерпретации. Во‑первых, имеются автоматически сгенерированные сообщения от широко используемого коммерческого ПО для анализа ЭКГ, которое отмечает типы ритма и возможные проблемы, такие как перенесённый инфаркт или аномальные электрические паттерны. Эти метки были повторно сгенерированы для всех записей с помощью последней версии ПО, чтобы исследователи могли сопоставлять пациентов в разные десятилетия единообразно. Во‑вторых, для многих ЭКГ база также включает то, что врачи записали при обзоре снимков у постели больного. Поскольку эти заметки были набраны в виде свободного текста, команда использовала методы обработки естественного языка, чтобы перевести их в стандартизованные компьютерные коды. Затем они оценили, насколько совпадают автоматические и врачебные интерпретации, обычно обнаруживая сильное перекрытие, но также выявляя случаи, где компьютер и врач увидели различия.

Связь паттернов сердца с диагнозами и историей болезней

Помимо того, что видно на каждой полоске ЭКГ, база данных связывает каждого пациента с кодами диагнозов из их электронных медицинских карт. Эти коды из устоявшихся международных систем (ICD‑9 и ICD‑10) суммируют состояния от высокого артериального давления и диабета до нарушений ритма сердца и заболеваний лёгких, а также содержат даты постановки диагнозов. У некоторых пациентов лишь несколько кодов, у других — сотни, что отражает сложную медицинскую историю. Наиболее частые коды в обеих больницах связаны с эссенциальной гипертензией, подчёркивая распространённость высокого кровяного давления среди людей, проходящих ЭКГ. Важно, что авторы подчёркивают: метки на основе ЭКГ и коды диагнозов отражают разные аспекты ухода и могут относиться к разным визитам, поэтому исследователям следует внимательно продумывать, как их комбинировать.

Figure 2
Figure 2.

Сильные стороны, ограничения и варианты использования исследователями

Поскольку ЭКГ собирались в ходе обычной клинической практики с использованием одного бренда оборудования, данные последовательны, но в них также присутствуют реалистичные недостатки — шум и отсутствие некоторых отведений. Авторы предоставляют базовые флаги качества и технические примечания, но преднамеренно оставляют дальнейшую очистку и отбор конечным пользователям, у которых могут быть разные исследовательские цели. Они также предостерегают, что все записи получены в двух крупных академических центрах США с использованием системы одного вендора, поэтому результаты могут не полностью обобщаться на другие регионы или устройства. Тем не менее размер набора данных, разнообразие пациентов и наличие как автоматических, так и врачебных интерпретаций делают HEEDB мощной площадкой для разработки новых алгоритмов и изучения предвзятости между демографическими группами.

Что это означает для будущей помощи при сердечных заболеваниях

По сути, база данных ЭКГ Гарварда и Эмори превращает миллионы рутинных тестов сердца в общий научный ресурс. Для неспециалиста её ценность заключается в том, что скрытые в этих записях паттерны могут выявлять людей с риском серьёзных сердечных проблем задолго до появления симптомов и показывать, одинаково ли хорошо действующие инструменты работают для людей разного возраста, пола и происхождения. Путём широкого предоставления тщательно деперсонализированных данных проект прокладывает путь к более точной, основанной на данных кардиологии и к компьютерно‑ассистированным решениям, которые одновременно мощны и справедливы.

Цитирование: Koscova, Z., Li, Q., Robichaux, C. et al. The Harvard-Emory ECG Database. Sci Data 13, 516 (2026). https://doi.org/10.1038/s41597-026-06861-9

Ключевые слова: электрокардиограмма, сердечно-сосудистые заболевания, медицинские наборы данных, машинное обучение в медицине, ритм сердца