Clear Sky Science · ru

SMC-LUD: Крупномасштабный набор B‑режимных ультразвуковых изображений печени для классификации гепатоцеллюлярной карциномы и гемангиомы

· Назад к списку

Почему это важно для повседневного здоровья

Рак печени — один из самых смертельных видов рака в мире, частично потому, что его трудно обнаружить и правильно классифицировать на ранних стадиях, когда лечение более эффективно. Врачи часто полагаются на УЗИ — быстрый и доступный метод сканирования — чтобы искать подозрительные участки в печени. Но на этих зернистых черно‑белых изображениях опасные опухоли и безвредные образования могут выглядеть очень похоже, даже для экспертов. В этой статье представлен новый крупный сбор изображений, предназначенный помочь компьютерам научиться различать их, что потенциально повысит точность и доступность проверки печени.

Взгляд поближе на изменения в печени

Два часто встречающихся результата при сканировании печени находятся на разных концах шкалы риска. Гепатоцеллюлярная карцинома — первичная форма рака печени, которая может представлять угрозу для жизни, если её пропустить или обнаружить поздно. Гемангиомы, напротив, обычно являются безвредными скоплениями кровеносных сосудов и редко требуют лечения. Однако на базовых ультразвуковых изображениях эти два образования порой трудно различимы, особенно если ткань печени уже повреждена или поражения малы. Сегодня врачам часто приходится назначать дополнительные обследования, такие как КТ или МРТ, чтобы удостовериться, что увеличивает затраты, время и подвергает пациента воздействию излучения или контрастных веществ.

Создание большой библиотеки изображений печени

Чтобы решить эту задачу, исследователи из Samsung Medical Center в Сеуле собрали SMC-LUD — новый публичный набор из 5 385 ультразвуковых изображений печени от 1 021 реального пациента, обследованных в период с 2015 по 2024 год. На каждом изображении показано поражение печени, тщательно классифицированное в одну из двух групп: рак (гепатоцеллюлярная карцинома, 2 716 изображений) или доброкачественная гемангиома (2 669 изображений). Случаи рака были подтверждены гистологическим исследованием ткани, удалённой во время операции или биопсии, тогда как гемангиомы диагностировались по характерным признакам на снимках, интерпретированным опытными радиологами. Все изображения были анонимизированы, сгруппированы по пациентам и перепроверены специалистами для обеспечения надёжных меток.

Figure 1
Figure 1.

Подготовка данных для умных алгоритмов

Команда организовала набор данных так, чтобы его было удобно использовать исследователям в области ИИ. Изображения были приведены к единому размеру и стандартизированы, чтобы модели видели их в согласованном формате; данные также были разделены на отдельные группы для обучения, дообучения и финального тестирования, при этом обеспечено, чтобы изображения одного пациента не появлялись более чем в одной группе. Набор доступен в двух вариантах: «Clean» — без маркеров измерений, и «Caliper» — с такими маркерами. Для честной оценки исследователи обучали свои модели только на Clean‑версии, чтобы избежать риска, что алгоритмы смогут «жульничать», связывая паттерны маркеров с определёнными диагнозами вместо того, чтобы фокусироваться на самих поражениях. Сопровождающая таблица с информацией о пациентах, такой как размер опухоли и стадия для онкологических случаев, позволяет проводить более глубинный клинический анализ.

Как компьютер учится видеть

Чтобы продемонстрировать возможности ресурса, авторы построили модель глубокого обучения на базе известной архитектуры распознавания изображений и усилили её специальными модулями «внимания». Эти компоненты помогают сети сосредоточиться на наиболее информативных частях изображения и на ключевых паттернах яркости и текстуры. Дизайн использует два параллельных ветвления, которые обрабатывают одинаковые признаки немного разными способами перед их объединением, после чего применяется пространственный фильтр, выделяющий важные области — примерно как радиолог, мысленно увеличивающий подозрительный участок. Обученная на подмножестве SMC-LUD Clean, эта модель была сопоставлена с несколькими популярными нейросетевыми архитектурами для медицинской визуализации.

Figure 2
Figure 2.

Что показывают результаты

На отложенных тестовых изображениях модель с улучшенным модулем внимания правильно различала рак печени и гемангиому в почти 99% случаев, опережая сравниваемые модели. Тепловые карты, полученные из внутренних расчётов сети, показали, что она, как правило, фокусируется на самих поражениях, а не на посторонних деталях изображения, что указывает на усвоение медицински значимых признаков. Хотя в этом исследовании оценивается только двухклассовое различие между одним злокачественным и одним доброкачественным типом поражения, достигнутые результаты подчёркивают как качество разметки изображений, так и потенциал УЗИ‑основанной компьютерной диагностики при наличии достаточно большого и хорошо организованного набора данных.

Что это может означать для пациентов

Для неспециалистов главный вывод таков: этот набор данных сам по себе не изменит способ чтения вашего следующего снимка врачом — но он закладывает важную основу. Свободно поделившись большой, тщательно верифицированной библиотекой ультразвуковых изображений, авторы дают исследователям по всему миру исходный материал для обучения и тестирования более умных инструментов скрининга печени. В будущем такие инструменты могут служить вторым взглядом, отмечая тревожные участки, требующие более внимательного изучения, и сокращая ненужные дообследования при явно доброкачественных находках. В конечном счёте это может помочь сместить диагностику рака печени в сторону более ранних и лечимых стадий, сохраняя контроль над затратами и сложностью.

Цитирование: Tak, J., Ko, RE., Kwon, R.D. et al. SMC-LUD:Large-Scale B-Mode Liver Ultrasound Dataset for Hepatocellular Carcinoma and Hemangioma Classification. Sci Data 13, 649 (2026). https://doi.org/10.1038/s41597-026-07023-7

Ключевые слова: ультразвук печени, гепатоцеллюлярная карцинома, гемангиома, глубокое обучение, набор медицинских изображений