Clear Sky Science · ru
Улучшенный трансформером глубокий ансамбль для многоклассной классификации заболеваний печени с использованием компьютерной томографии
Почему важны более точные исследования печени
Заболевания печени постепенно превращаются в глобальную проблему здравоохранения, и их раннее обнаружение на медицинских снимках может оказаться удивительно сложным даже для специалистов. В этой статье исследуется, как современные методы искусственного интеллекта могут помочь врачам точнее интерпретировать рутинные КТ‑сканы, разделяя пациентов на три распространённые и серьёзные проблемы печени — стеатоз (жировая печень), цирроз и рак печени — без дополнительных тестов. Объединив две мощные идеи ИИ — сверточные нейронные сети и механизм внимания трансформеров, авторы создают систему, которая приближается к надёжному второму мнению для рентгенологов.
Три распространённые проблемы печени и одна большая задача
Печень находится в центре метаболической «лаборатории» организма, обеспечивая метаболизм, детоксикацию и выработку важных белков. При повреждении вследствие отложения жира, рубцевания или опухолей последствия затрагивают почти все органы. Жировая болезнь печени сейчас затрагивает примерно треть населения мира, а цирроз и рак печени уносят миллионы жизней ежегодно. Тем не менее на КТ эти состояния часто сливаются в серые тона: ранние жировые изменения могут быть едва заметны, цирротические рубцы — диффузными, а опухоли — замаскированными на фоне нормальной ткани. Традиционные лабораторные тесты помогают, но не дают специфики для отдельных заболеваний. Врачи всё чаще полагаются на визуализацию, чтобы решать, кто требует наблюдения или лечения, но интерпретация зависит от опыта и нагрузки специалистов.
Обучение компьютеров «видеть» на медицинских изображениях
За последнее десятилетие глубокое обучение изменило подход компьютеров к чтению изображений. Сверточные нейронные сети (CNN) отлично обнаруживают такие паттерны, как края, текстуры и формы, и уже улучшили выявление многих заболеваний печени. Однако классические CNN в основном фокусируются на локальных областях и могут испытывать трудности с диффузными или тонкими изменениями, распределёнными по органу. Трансформеры, изначально разработанные для языка, привносят новое — механизм внимания. Они учатся взвешивать взаимосвязи между отдалёнными регионами изображения, распознавая глобальные закономерности, а не только локальные фрагменты. Авторы исследования поставили цель объединить оба преимущества — детализацию CNN и глобальный контекст трансформеров — в одной практичной системе для КТ печени.

Создание гибридной команды нейросетей
Исследователи собрали КТ‑сканы из нескольких открытых наборов данных, охватывающих 681 пациента и более миллиона отдельных срезов изображений, представляющих жировую печень, цирроз и гепатоцеллюлярную карциному (распространённая форма рака печени). После стандартизации размера изображений и повышения контраста они уравновесили нерaвномерное распределение классов с помощью тщательной аугментации данных — небольших сдвигов, поворотов и масштабирования, имитирующих вариабельность в реальных условиях. Три хорошо известных предобученных CNN — ResNet50V2, DenseNet121 и MobileNetV2 — были адаптированы и дообучены для классификации трёх заболеваний по отдельности. Каждая сеть имеет свою архитектурную «индивидуальность»: ResNet глубока и мощна, DenseNet эффективно повторно использует признаки, а MobileNet лёгкая и быстрая, что важно для ограниченных вычислительных условий.
Добавление внимания и объединение мнений
Далее команда расширила каждую CNN блоками трансформера. Вместо остановки на стеке локальных признаков выход CNN был преобразован в ряд токенов и пропущен через слои многоголового самовнимания. Они учатся, какие области изображения печени должны «обращать внимание» на какие другие, улавливая дальнодействующие паттерны, например широкораспространённое рубцевание или пятнистое отложение жира. Каждая гибридная модель CNN–трансформер выдаёт собственную вероятность трёх типов заболеваний, основываясь на всех срезах КТ пациента, а не на отдельных изображениях. Наконец, авторы создали гибридный ансамбль: они выровняли и конкатенировали представления признаков трёх моделей и пропустили их через дополнительный трансформер, который учится наилучшим образом комбинировать разные точки зрения перед вынесением окончательного решения.

Насколько хорошо работает система?
Прирост в результативности был впечатляющим. По отдельности настроенные CNN достигали точности примерно от 69% до 82% — уже достойно, но с заметными слепыми зонами, особенно для жировой болезни и цирроза, которые часто выглядят похоже. Добавление трансформеров к каждому бэкбону подняло точность до 87–93% и значительно улучшило баланс между тремя заболеваниями. Когда все три сети с трансформерами были объединены в ансамбль, общая точность выросла до 97%, с почти идеальными показателями точности (precision), полноты (recall) и надёжной корреляционной метрикой, учитывающей несбалансированность классов. Важно, что на уровне пациентов ансамбль не пропустил ни одного случая цирроза или рака печени в тестовой выборке и показал очень мало ложных срабатываний для жировой болезни. Статистические проверки подтвердили, что эти улучшения не случайны, а представляют собой реальный прогресс по сравнению с лучшей одиночной моделью.
Что это может значить для пациентов
Для неспециалиста главное сообщение таково: этот гибридный ИИ‑метод может превратить рутинные КТ‑сканы в гораздо более точный инструмент для одновременного обнаружения трёх основных заболеваний печени. Объединив разные нейросети и снабдив их механизмом «внимания», модель учится замечать как тонкие детали, так и закономерности на уровне всего органа, важные для диагноза. Хоть подход и требует больше вычислительных ресурсов по сравнению с простыми сетями и нуждается в дополнительной валидации в разных больницах и на разных сканерах, он указывает путь к практичным инструментам, которые могут работать рядом с рентгенологами, отмечая скрытые заболевания, уменьшая число пропущенных случаев и поддерживая более ранние решения о лечении. Коротко говоря, это шаг к будущему, в котором умное программное обеспечение помогает убедиться, что серьёзные заболевания печени не остаются незамеченными на снимке.
Цитирование: Bhardwaj, S., Aggarwal, S., Kumar, N. et al. Transformer-enhanced deep ensemble for multi-class liver disease classification using computed tomography images. Sci Rep 16, 12690 (2026). https://doi.org/10.1038/s41598-026-43256-7
Ключевые слова: изображения заболеваний печени, диагностика на основе глубокого обучения, анализ КТ, ансамбль трансформеров, радиология с компьютерной поддержкой