Clear Sky Science · ru

Гибридный подход глубокого обучения с интеграцией CNN и трансформера для классификации рака легких по КТ

2026-03-17 · Назад к списку

Почему это исследование важно для пациентов и семей

Рак легких — один из самых смертоносных видов рака в мире, во многом потому, что его часто обнаруживают слишком поздно. В этом исследовании изучается, как передовые методы компьютерного зрения могут помочь врачам точнее и последовательно читать КТ грудной клетки, чтобы подозрительные участки в легких отмечались раньше и с меньшим числом ошибок, что потенциально способствует более быстрым и обоснованным клиническим решениям.

Смотреть внутрь грудной клетки цифровыми глазами

Врачи обычно полагаются на КТ для поиска крошечных образований в легких, которые могут сигнализировать о раке. Эти образования, называемые узелками, могут быть очень маленькими и едва заметными, особенно на ранних стадиях болезни. Нормальная ткань легких, безвредные узелки и опасные опухоли могут выглядеть удивительно похоже, даже для опытных специалистов. Малейшие изменения качества изображения, фоновой ткани или шум на скане могут ещё больше скрывать различия. По этой причине некоторые раки остаются нераспознанными, тогда как другие находки вызывают ложные тревоги и ведут к ненужным дополнительным обследованиям.

Figure 1. Как ИИ «читает» КТ легких, сортируя изображения на здоровые, безвредные и злокачественные категории.

Обучение компьютеров распознавать паттерны на КТ

Исследователи разработали систему глубокого обучения под названием C-Swin, чтобы классифицировать КТ изображений легких на три категории: нормальные, доброкачественные (незлокачественные) и злокачественные (раковые). Системы глубокого обучения учатся непосредственно на большом количестве примеров изображений, а не полагаются на вручную созданные правила. C-Swin сочетает две мощные идеи. Тип нейронной сети, известный как сверточная нейронная сеть, сосредотачивается на тонких деталях — таких как границы, текстуры и небольшие формы, которые раскрывают структуру узелка. Одновременно модуль трансформера, вдохновлённый инструментами, используемыми в машинном переводе, смотрит на изображение более широко, учитывая, как регионы соотносятся друг с другом по всему объему легких.

Фокусировка на действительно важных участках изображения

Чтобы максимально использовать информацию КТ, команда ввела специальный механизм внимания, который помогает модели концентрироваться на релевантных областях и игнорировать фоновые отвлечения. КТ-изображение делится на небольшие патчи или окна. Внутри этих окон модель обучается выявлять, какие области несут наибольшую полезную информацию для оценки, здорова ли ткань. Сдвигая и комбинируя окна в разных направлениях, сеть сохраняет отношения между соседними регионами и захватывает как близкие детали, так и дальние структуры в легких. Дополнительный компонент с затворами помогает системе усиливать тонкие, но важные паттерны и подавлять менее полезные сигналы, уточняя, как модель различает безвредные узелки и опасные образования.

Figure 2. Как двухпутевая модель ИИ увеличивает внимание к деталям легких и к всему скану, чтобы выявлять вероятные очаги рака.

Проверка системы в действии

Авторы обучали и оценивали C-Swin на публичном наборе КТ-данных, собранном в иракских больницах, который включает изображения здоровых легких, доброкачественных узелков и злокачественных случаев. Поскольку медицинские наборы данных часто малы, они расширили обучающую выборку с помощью методов аугментации данных, таких как отражение и вращение изображений, чтобы имитировать более широкий спектр сканов. После тщательной предобработки и тренировки модель правильно классифицировала изображения с точностью около 96% и показала сопоставимо высокие значения точности, полноты и F1‑меры — показателей, которые уравновешивают пропущенные случаи рака и ложные срабатывания. При повторных тестах на разных разбиениях данных результаты оставались стабильными, а статистические проверки показали, что C-Swin существенно превосходит несколько существующих подходов глубокого обучения.

Что это может означать для будущего ухода

Хотя это исследование не заменяет суждение радиолога, оно показывает, что тщательно спроектированное сочетание локального и глобального анализа изображений может помочь компьютерам сосредоточиться на тех же областях легких, которые эксперты считают наиболее важными. Визуализации Grad-CAM, которые подсвечивают области изображения, влияющие на решения модели, указывают, что C-Swin склонен фокусироваться на зонах поражения, а не на несущественном фоне. Авторы отмечают, что работа основана на одном, относительно небольшом наборе данных, поэтому требуются более широкие испытания в разных больницах и на различных сканерах. Если модель подтвердит свою эффективность на больших и более разнообразных коллекциях сканов, такие системы могут стать полезными помощниками в рабочей практике, помогая клиницистам приоритизировать случаи, снижать число пропусков и потенциально способствовать более раннему выявлению рака легких.

Цитирование: Yousafzai, S.N., Nasir, I.M., Mansour, S. et al. A hybrid deep learning approach integrating CNN and transformer for lung cancer classification using CT scans. Sci Rep 16, 15420 (2026). https://doi.org/10.1038/s41598-026-41161-7

Ключевые слова: рак легких, КТ-изображение, глубокое обучение, медицинский ИИ, классификация изображений