Clear Sky Science · ru
Обучение мультимодальных LLM распознаванию 12‑канальных электрокардиографических изображений
Почему важно научить компьютеры читать сердечные кривые
Ежедневно у миллионов людей регистрируют электрическую активность сердца с помощью электрокардиограммы (ЭКГ). Врачи обычно видят эти записи в виде печатных или цифровых графиков с извилистыми линиями. Во многих местах, особенно в клиниках с ограниченными ресурсами, доступны только такие изображения — нет исходных цифровых сигналов, нет продвинутого программного обеспечения. В этом исследовании показано, как новый тип искусственного интеллекта может научиться «читать» изображения ЭКГ напрямую, предлагая более надёжную помощь клиницистам по всему миру.

Построение громадной библиотеки изображений сердца
Чтобы научить систему ИИ понимать изображения ЭКГ, исследователям сначала пришлось создать огромную реалистичную обучающую библиотеку. Большинство существующих баз ЭКГ сохраняют сырые электрические сигналы, а не привычные бумажные изображения, которые используют врачи. Команда преобразовала эти сигналы в правдоподобные 12‑канальные изображения ЭКГ, с сеткой и стандартной компоновкой. Они также добавили реалистичные дефекты — складки, повороты, слабые линии, изменения цвета и даже имитации фотографий с камеры — чтобы смоделировать то, что происходит при печати, сканировании или съёмке ЭКГ в реальных клиниках. Эти изображения поступили из нескольких крупных когор пациентов в Европе, Северной и Южной Америке, что помогло системе усвоить шаблоны, встречающиеся в разных популяциях и условиях стационара.
Обучение ИИ понимать увиденное
Одного показа миллионам изображений ЭКГ недостаточно; системе также нужно научиться отвечать на содержательные вопросы. Команда создала ECGInstruct — коллекцию из более чем миллиона пар «изображение‑текст». Каждая пара связывает изображение ЭКГ с задачей: выявление базовых особенностей сердечного ритма, распознавание аритмий, идентификация признаков заболеваний или составление короткого клинического отчёта. Чтобы масштабировать процесс, исследователи использовали мощную языковую модель для формирования вопросов и ответов, затем фильтровали и уточняли их с помощью автоматических проверок и экспертного обзора. В результате у ИИ появились не просто изображения, а богатый набор примеров того, как клиницисты думают и говорят об ЭКГ.
Представляем PULSE — специализированную модель для чтения сердца
Используя этот большой и тщательно подготовленный набор данных, команда обучила PULSE — мультимодальную модель ИИ, которая может смотреть на изображение ЭКГ и выдавать текстовые интерпретации. PULSE сочетает модуль обработки изображений и языковой модуль, чтобы связывать визуальные паттерны с письменными объяснениями и выводами. В отличие от ранних систем, ограниченных несколькими фиксированными диагнозами или требующих чистых числовых сигналов, PULSE предназначена для работы с широким спектром вопросов — от «Нормальна ли эта ЭКГ?» до «Опишите ритм и ключевые находки». Она также может вести многоступенчатые диалоги по одной ЭКГ, имитируя рассуждения клинициста при сложном случае.
Проверка системы в деле
Чтобы оценить эффективность PULSE, исследователи создали ECGBench — широкий тестовый набор для понимания изображений ЭКГ. ECGBench включает стандартные диагностические задачи, генерацию отчётов, вопросы с несколькими вариантами ответов на реальных случаях и многопроходные сеансы вопрос‑ответ, похожие на диалог со специалистом. Как на знакомых наборах данных, так и на полностью новых PULSE опережала универсальные модели ИИ, включая широко используемые коммерческие системы, на 21–33 процентных пункта по точности. Она также превзошла ранние инструменты, ориентированные на ЭКГ и зависящие от сырых сигналов, особенно в задачах, требующих открытого рассуждения или работы только с печатными изображениями. В сравнительных примерах отчёты PULSE обычно ближе к интерпретациям экспертов, чем отчёты ведущих общих моделей ИИ.

Что это может значить для повседневной помощи
Исследование показывает, что тщательно обученный открытый ИИ, подобный PULSE, может стать универсальным помощником в местах, где используют изображения ЭКГ. Поскольку он работает напрямую с картинками, он может поддерживать клиники, имеющие только отсканированные или сфотографированные распечатки, и предоставлять не просто бинарные метки, а более полные объяснения и многоступенчатое рассуждение. В то же время авторы подчёркивают, что система ещё не заменяет кардиологов. Она всё ещё уступает экспертному уровню и требует тщательной проверки в реальных условиях больниц с учётом безопасности, смещения и надлежащего надзора. Тем не менее эта работа — важный шаг на пути к ИИ‑инструментам, которые помогут клиницистам лучше понимать извилистые линии, раскрывающие состояние человеческого сердца.
Цитирование: Liu, R., Bai, Y., Yue, X. et al. Teaching multimodal LLMs to comprehend 12-lead electrocardiographic images. npj Digit. Med. 9, 349 (2026). https://doi.org/10.1038/s41746-026-02551-3
Ключевые слова: электрокардиограмма, медицинский ИИ, мультимодальные модели, кардиологическая диагностика, клиническая поддержка принятия решений