Clear Sky Science · ru

Эффективный SqueezeViT: компактная архитектура vision transformer для классификации рентгеновских снимков грудной клетки

2026-04-09 · Назад к списку

Почему важно быстрее читать рентген грудной клетки

Рентгеновские снимки грудной клетки — один из наиболее распространённых способов, которыми врачи ищут проблемы с лёгкими и сердцем, от пневмонии до туберкулёза. В перегруженных больницах или небольших клиниках с ограниченными вычислительными ресурсами сложно запускать крупные инструменты искусственного интеллекта, которые могли бы помочь врачам быстрее интерпретировать эти изображения. В этом исследовании представлен новый компактный ИИ‑модуль под названием SqueezeViT, созданный для выявления заболеваний грудной клетки на рентгеновских снимках при значительно меньших требованиях к вычислениям по сравнению со стандартными системами, что делает его более практичным для реальной клинической практики.

Новый подход к уменьшению «умных» считывателей изображений

Современные инструменты распознавания изображений часто опираются на две идеи. Сверточные нейронные сети хорошо улавливают мелкие детали в локальных областях изображения, тогда как трансформеры лучше фиксируют глобальные связи по всему снимку. Однако стандартные vision transformer довольно тяжеловесны и медленны. Авторы спроектировали SqueezeViT так, чтобы сохранить широкий охват трансформеров, но «сжимать» объём информации, который нужно обрабатывать на каждом шаге. Их цель — сохранить те участки изображения, которые важны для постановки диагноза, и при этом сократить лишние вычисления, чтобы модель могла работать на скромном оборудовании.

Figure 1. Компактный ИИ помогает точно классифицировать рентгеновские снимки грудной клетки на устройствах с низкой производительностью.

Как компактная модель видит лёгкие и сердце

SqueezeViT сочетает два блока, чтобы эффективно обрабатывать рентгеновские снимки грудной клетки. Первый, называемый Fire block, действует как умный фильтр: он сжимает информацию из изображения в меньший набор признаков, а затем расширяет её, чтобы выделить закономерности, такие как границы и текстуры, связанные с патологией. Второй, называемый Translution Block, разбивает изображение на небольшие патчи и применяет механизм внимания, позволяющий модели соотносить сигналы из отдалённых частей лёгких или сердца. Используя немного большие патчи, чем во многих ранних разработках, модель уменьшает объём работы, которую должен выполнить шаг внимания, при этом сохраняя способность улавливать, как изменения в одной части грудной клетки связаны с другими.

Проверка системы на практике

Чтобы оценить практическую эффективность SqueezeViT, исследователи протестировали его на двух крупных публичных коллекциях рентгенов грудной клетки: наборе данных NIH ChestX‑ray14 и CheXpert. В сумме они включают сотни тысяч изображений с метками по ряду состояний, таких как кардиомегалия, отёк, пневмония и узловые образования в лёгких. Команда обучала SqueezeViT с нуля и сравнивала его способность различать больные и здоровые случаи с известными моделями глубокого обучения, включая тяжеловесы вроде ResNet и DenseNet, а также более лёгкие варианты, такие как MobileNet, ShuffleNet, SqueezeNet и MobileViT. В оценке они сосредоточились на площади под ROC‑кривой (AUROC) — метрике, которая вознаграждает модели за то, что они корректно ранжируют аномальные случаи выше нормальных при разных порогах принятия решения.

Figure 2. Легковесный ИИ «сжимает» детали изображения, чтобы поэтапно выявлять проблемы с лёгкими на рентгенах грудной клетки.

Баланс между скоростью, размером и точностью

Результаты показывают, что SqueezeViT достигает точности, сопоставимой с гораздо более крупными моделями, а в ряде задач даже превосходит их, при этом оставаясь значительно меньшим. Он использует около полумиллиона обучаемых параметров, что сокращает их количество более чем на 40% по сравнению с MobileViT и более чем на 90% по сравнению с некоторыми из крупнейших эталонных моделей. Вычисления, использование памяти и задержки обработки как на графических ускорителях, так и на обычных CPU сокращены, что позволяет анализировать изображения за считанные миллисекунды на типичном оборудовании. В мультиболезненных задачах SqueezeViT сопоставим или чуть уступает лучшим тяжёлым моделям по многим состояниям и заметно превосходит другие лёгкие архитектуры. Для простых решений «нормально/аномально» он снова демонстрирует сильные и стабильные показатели на обоих наборах данных.

Что это значит для повседневной практики

Для читателей без технической подготовки главный вывод таков: SqueezeViT доказывает, что возможно создать ИИ‑помощника для рентгенов грудной клетки, который экономно расходует вычислительные ресурсы и при этом аккуратно обнаруживает патологии. Хотя он не заменяет радиологов или клиницистов, такой инструмент может помочь быстрее помечать подозрительные снимки в переполненных больницах и расширить доступ к продвинутому анализу изображений в клиниках с ограниченным оборудованием. Авторы отмечают, что реальные метки данных могут быть шумными, а некоторые категории заболеваний остаются сложными для распознавания, но они считают, что эта компактная архитектура — многообещающий шаг к надёжным портативным средствам поддержки при анализе грудной клетки и в будущем может быть адаптирована для других типов обследований, таких как КТ или МРТ.

Цитирование: Maurya, A., Lohia, A., Chirag et al. Efficient SqueezeViT: A lightweight vision transformer framework for chest X-ray image classification. Sci Rep 16, 16183 (2026). https://doi.org/10.1038/s41598-026-47918-4

Ключевые слова: ИИ для рентгена грудной клетки, vision transformer, анализ медицинских изображений, легковесное глубокое обучение, обнаружение заболеваний лёгких