Clear Sky Science · ru

SSG–CAM: повышение визуальной интерпретируемости через уточнённые вторые градиенты и эволюционное многослойное слияние

2026-01-31 · Назад к списку

Почему важно видеть, что происходит внутри ИИ

Современные системы распознавания изображений могут находить опухоли, дорожные знаки или крошечных паразитов в клетках крови с сверхчеловеческой скоростью — но они редко показывают нам точно, почему они приняли то или иное решение. Такое поведение «чёрного ящика» особенно тревожно в медицине и других сферах с высокими рисками, где неверная оценка может иметь серьёзные последствия. В статье предложен новый способ сделать глубокие модели визуально более объяснимыми и надёжными, помогая людям видеть, какие части изображения действительно повлияли на выбор ИИ.

От расплывчатых тепловых карт к более чётким объяснениям

Популярный класс инструментов, называемый картами активации классов (CAM), преобразует внутреннюю работу нейросети в цветные тепловые карты, накладываемые на исходное изображение. Яркие области показывают, куда модель «смотрела», чтобы решить, например, что на изображении птица или поражённая клетка. Существующие методы CAM часто опираются на простые сигналые первого порядка — градиенты внутри сети. Эти сигналы могут быть шумными или «насыщаться», то есть прекращать меняться, хотя детали изображения всё ещё важны. В результате тепловые карты могут подсвечивать большие фрагменты фона, пропускать тонкие детали или давать непоследовательные объяснения между слоями.

Более глубокий взгляд: вторые градиенты и сглаживание

Авторы предлагают Smooth Second-Order Gradient CAM, или SSG–CAM. Вместо того чтобы полагаться только на первый толчок градиентов, SSG–CAM также анализирует, как сами градиенты изменяются — информацию второго порядка. Этот дополнительный уровень чувствительности помогает выявить, от каких признаков действительно зависит решение сети, снижая риск потери важной доказательной базы. Чтобы усмирить случайный шум, SSG–CAM мягко сглаживает градиенты с помощью гауссова фильтра, подобно тому, как размывка камеры убирает точки без потери формы. Наконец, метод комбинирует сглаженные сигналы первого и второго порядка так, чтобы усиливать сильные и надёжные отклики и подавлять слабые или непоследовательные, создавая более чистые и сфокусированные тепловые карты.

Разрешая алгоритму выбирать лучшие слои

Глубокие сети не работают в одном шаге: ранние слои улавливают края и текстуры, тогда как глубокие слои кодируют целые объекты или концепции. Многие методы CAM пытаются объединять информацию из нескольких слоёв, но часто используют вручную заданные или фиксированные правила. Исследование показывает, что наивное объединение всех слоёв может ухудшать результат, добавляя низкоуровневый шум, который размывает итоговое объяснение. Чтобы решить эту проблему, авторы сочетают SSG–CAM с оптимизационной стратегией дифференциальной эволюции, создавая фреймворк DE–SSG–CAM. Этот алгоритм автоматически ищет комбинации слоёв признаков и несколько ключевых настроек, стремясь найти смесь, которая лучше всего соответствует реальным очертаниям объектов на небольшой размеченной выборке. Найденные параметры можно повторно использовать, получая сильные многослойные объяснения без дорогой ручной настройки.

Проверка метода на практике

Исследователи подвергли SSG–CAM и DE–SSG–CAM серии строгих тестов. На стандартных бенчмарках изображений новый метод повысил точность слабонатренированной локализации объектов — обводки объектов коробками, используя только метки на уровне изображения — по сравнению с несколькими популярными вариантами CAM. Он также улучшил слабонатренированную семантическую сегментацию, где модели нужно помечать каждый пиксель без подробных обучающих масок. В эксперименте с «мутированием» изображений команда размывала области, выделенные каждым методом. При удалении областей, выбранных SSG–CAM, точность сети падала сильнее всего, что указывает на то, что эти подсвеченные регионы действительно критичны для решения модели, а не просто декоративные горячие точки.

Поиск крошечных паразитов в клетках крови

Самое впечатляющее применение — в биомедицинской визуализации. Авторы использовали свой подход для локализации паразитов малярии внутри изображений эритроцитов — задачи, где инфицированные области могут быть крошечными и неправильной формы. Используя только метки об инфицированности на уровне изображений для обучения, DE–SSG–CAM сгенерировал псевдомаски, которые хорошо совпадали с контурными разметками экспертов, достигнув среднего коэффициента пересечения по объёму (IoU) 62.38% — сильный результат для такой сложной задачи со слабой разметкой. Фреймворк также успешно переносился на другую архитектуру сети, ResNet34, показывая, что метод не привязан к одной структуре и может адаптироваться к разным дизайнам.

Что это значит для обычных пользователей

Для неспециалистов главный вывод в том, что эти методы делают «мотивировку» ИИ более видимой и заслуживающей доверия. SSG–CAM даёт более чёткие, менее шумные тепловые карты, которые лучше соответствуют тому, что человек счёл бы истинным объектом или поражением, а DE–SSG–CAM автоматически учится комбинировать информацию с разных глубин сети. Вдвоём они приближают визуальные объяснения к формату, на который могут опираться врачи, инженеры и регуляторы при вопросе: «Почему модель сказала, что на изображении есть болезнь или опасность?»

Цитирование: Chen, Z., Zhang, Y.J., Pan, L. et al. SSG–CAM: enhancing visual interpretability through refined second-order gradients and evolutionary multi-layer fusion. Sci Rep 16, 6848 (2026). https://doi.org/10.1038/s41598-026-37278-4

Ключевые слова: объяснимая ИИ, карты активации классов, визуализация глубокого обучения, анализ медицинских изображений, локализация объектов