Clear Sky Science · ru

Глубокая обучающая система для диагностики рака молочной железы с использованием Swin Transformer и мульти‑масштабной сети с двойным вниманием (Dual‑Attention Multi‑scale Fusion Network)

· Назад к списку

Почему это важно для пациентов и врачей

Рак молочной железы — одно из самых распространённых онкологических заболеваний у женщин, и маммография остаётся основным инструментом для раннего обнаружения. Тем не менее чтение этих рентгеновских снимков сложно даже для экспертов, и мелкие признаки могут ускользнуть от внимания. В этом исследовании представлена новая система искусственного интеллекта (ИИ), созданная, чтобы помогать радиологам более надёжно выявлять рак молочной железы, сочетая два мощных подхода «взгляда» на снимок: один охватывает общую картину, другой — увеличивает и фиксирует крошечные детали.

Figure 1
Figure 1.

Задача — видеть и лес, и деревья

Современные ИИ‑системы уже помогают при интерпретации медицинских изображений, но большинство из них опирается на один тип модели. Сверточные нейронные сети хороши в выделении локальных паттернов — резких границ или маленьких ярких точек. Визуальные трансформеры, более новая группа моделей, превосходят в понимании взаимосвязей по всему изображению. Маммограммы же требуют обоих навыков одновременно: рак может проявляться в виде крошечных кальцинатов или едва заметных деформаций ткани, но их значение зависит от контекста всей структуры молочной железы. При этом реальные наборы данных по маммографии относительно малы и часто несбалансированы — случаев рака значительно меньше, чем нормальных исследований, — что облегчает переобучение или смещение моделей ИИ.

Двухпоточный ИИ: широкий обзор и глубокое увеличение

Авторы предлагают гибридную модель под названием Swin‑DAMFN, разработанную специально для объединения глобального и локального восприятия. Одна ветвь основана на Swin Transformer, который делит маммограмму на окна и использует механизм внимания для захвата дальнего контекста — того, как разные участки груди соотносятся друг с другом. Вторая ветвь — собственная сверточная сеть, Dual‑Attention Multi‑scale Fusion Network (DAMFN). Эта ветвь настроена на выявление чрезвычайно тонких деталей, таких как микрокальцинаты и незначительные деформации ткани. В ней специализированные блоки анализируют изображение на нескольких масштабах и направлениях, а затем с помощью модулей внимания усиливают области, наиболее клинически информативные, одновременно понижая влияние фоновой ткани.

Обучение системы с большим и более разнообразным набором изображений

Поскольку реальные наборы маммограмм ограничены и сдвинуты в сторону случаев без рака, исследователи усилили обучающие данные двумя взаимодополняющими способами. Во‑первых, они использовали тип генеративной модели, называемый условной GAN, чтобы синтезировать реалистичные фрагменты маммограмм, особенно для малопредставленных злокачественных категорий. Сгенерированные изображения помогают сбалансировать классы и показать модели больше вариаций проявления болезни. Во‑вторых, к реальным и синтетическим изображениям применяли фотометрические изменения — небольшие случайные корректировки яркости, контраста и резкости. Это заставляет ИИ ориентироваться на истинные анатомические признаки, а не на поверхностное освещение или шум, улучшая его способность обобщать на новые снимки.

Figure 2
Figure 2.

Как компоненты работают вместе во время диагностики

При анализе предварительно обработанная маммограмма одновременно подаётся в обе ветви. Swin Transformer формирует компактное представление глобальной структуры, тогда как DAMFN выдаёт подробную карту локальных признаков. Эти представления выравниваются по размеру и объединяются в единое описание. Лёгкий блок «triplet attention» дополнительно уточняет эту фузию, перекрёстно проверяя каналы и пространственные измерения, направляя внимание модели на области, которые с наибольшей вероятностью содержат патологию. В конце простой классификационный блок усредняет информацию и выдаёт предсказание по нескольким классам, например нормальная ткань, доброкачественные находки или разные типы злокачественных поражений.

Что означают результаты на практике

Команда протестировала Swin‑DAMFN на двух широко используемых публичных наборах данных — CBIS‑DDSM и MIAS — и сравнила с множеством популярных моделей глубокого обучения. Их система достигла примерно 99% точности на CBIS‑DDSM и почти 99% на MIAS, с аналогично высокой чувствительностью (умением обнаруживать раки) и специфичностью (избегать ложных тревог). Тщательные исследования абляции показали, что каждый компонент — две ветви, внимание при фузии и стратегия расширения данных — внесли вклад в эти улучшения. Хотя авторы отмечают, что требуется более широкое тестирование на разнообразных клинических данных из больниц, результаты указывают, что гибридные ИИ‑системы вроде Swin‑DAMFN могут стать ценными помощниками при скрининге рака молочной железы, помогая радиологам обнаруживать опасные очаги раньше и более последовательно, снижая нагрузку и неопределённость.

Цитирование: Aldawsari, M.A., Aldosari, S.J., Ismail, A. et al. A deep learning framework for breast cancer diagnosis using Swin Transformer and Dual-Attention Multi-scale Fusion Network. Sci Rep 16, 8941 (2026). https://doi.org/10.1038/s41598-026-37969-y

Ключевые слова: рак молочной железы, маммография, глубокое обучение, модели трансформеров, ИИ для медицинской визуализации