Clear Sky Science · ru
Лёгкая сеть слияния признаков для обнаружения слабых и мелких целей в дистанционного зондирования
Почему важно находить крошечные объекты с высоты
От мониторинга движения и судоходства до координации ликвидации последствий бедствий — современные спутники и дроны постоянно сканируют поверхность Земли. При этом многие интересующие нас объекты — мелкие автомобили, лодки или элементы инфраструктуры — в изображениях представлены всего несколькими пикселями и легко теряются на фоне плотной городской застройки, лесов или береговой линии. В этой статье представлена GSS‑YOLO — новая лёгкая система компьютерного зрения, разработанная для надёжного обнаружения таких слабых, крошечных целей на снимках дистанционного зондирования, даже если кадры размыты, тусклы или содержат много отвлекающего фона.

Задача: найти иголку в стоге сена
Камеры дистанционного зондирования на самолётах и спутниках охватывают большие площади сразу. Такой широкий обзор полезен, но он уменьшает размеры объектов: мелкие цели могут занимать лишь 10×10 пикселей или меньше. Одновременно фон оказывается сложным — облака, крыши, деревья, реки, тени и сезонные изменения освещения или погоды создают шум. Традиционные системы либо пропускают эти крошечные объекты, либо требуют тяжёлых, медленных моделей, которые трудно запускать в реальном времени на дронах или на периферийных устройствах. Авторы поставили задачу создать модель, точную для мелких целей и при этом достаточно эффективную для быстрого исполнения на ограничённом оборудовании.
Компактная система, настроенная на мелкие детали
Исследователи взяли за основу популярный детектор в реальном времени YOLOv5 и переработали ключевые части, создав GSS‑YOLO. Они предложили три основных блока, работающих совместно. Во‑первых, модуль Shallow‑Deep Information Aggregation (SIA) объединяет информацию из мелких и немного больших окрестностей изображения, помогая сети сочетать тонкие грани с более широким контекстом без раздувания модели. Во‑вторых, блок SPD‑Conv меняет способ уменьшения размера изображения: вместо простого отброса пикселей при даунсемплинге он переставляет их так, чтобы тонкие детали сохранялись в дополнительных каналах перед мягким сжатием. В‑третьих, модуль Global Context‑Aware Module (GCAM), расположенный непосредственно перед финальным детектором, просматривает всё изображение, чтобы выделить позиции, где вероятно находятся мелкие цели, и приглушить фоновые помехи.
Как новые модули работают вместе
SIA решает основную проблему многих визуальных сетей: обычные свёртки видят только локальные участки и испытывают трудности с глобальным контекстом. Запуская параллельные фильтры, смотрящие на слегка разные масштабы, и пропуская результаты через лёгкие слои для смешивания и регуляризации признаков, SIA формирует более богатые описатели мелких объектов без значительного увеличения числа параметров. SPD‑Conv ликвидирует другую проблему — потерю информации при агрессивном даунсемплинге. Он делит карту признаков на пересекающиеся под‑сетки и укладывает их по глубине, так что ни один пиксель не теряется; затем простой 1×1 фильтр уплотняет это более богатое представление. GCAM добавляет глобальный «прожекторный» эффект: он отдельно агрегирует информацию по горизонтали и вертикали, чтобы отслеживать строки и столбцы, где появляются крошечные объекты, и сочетает это с упрощённым механизмом внимания по каналам. В результате получается многомерная маска, усиливающая сигналы в вероятных местах целей и подавляющая сбивающие текстуры в остальной части изображения.

Тестирование модели
Чтобы проверить, переносятся ли эти идеи в реальные преимущества, команда оценивала GSS‑YOLO на трёх требовательных наборах данных. USOD содержит тусклые, ультра‑мелкие цельные объекты в кадрах с низким освещением; VisDrone2019 предлагает насыщенные городские сцены, снятые с дронов, полные крошечных пешеходов и автомобилей; DIOR — это разнообразная спутниковая коллекция с самолётами, мостами, кораблями, спортивными площадками и прочим. По всем трём наборам GSS‑YOLO постоянно показывала более высокие показатели точности, полноты и среднего качества обнаружения по сравнению с рядом современных конкурентов, включая последние версии YOLO и несколько специализированных моделей для мелких объектов. На наборе USOD, например, она не только достигла лучшей точности, но и сделала это с наименьшим числом параметров — около 5 миллионов — и при самой высокой скорости обработки, достигая сотен кадров в секунду. Визуальные примеры демонстрируют, что модель избегает как пропусков, так и ложных срабатываний в загруженных, шумных сценах, где другие системы испытывают трудности.
Что это значит для прикладных задач
Для неспециалистов ключевой вывод таков: GSS‑YOLO делает более реальной возможность выполнять точечное обнаружение мелких, трудноразличимых целей прямо на дронах, спутниках или других компактных устройствах без опоры на массивные вычислительные центры. За счёт лучшего сохранения тонких деталей изображения и использования глобального контекста для направления внимания модель превращает едва заметные пятнышки в уверенно распознанные объекты. Хотя в экстремальных условиях — например, когда большая часть цели скрыта или присутствует сильное размытие движения — она всё ещё может ошибаться, эта работа представляет практический шаг к мониторингу в реальном времени на больших площадях для управления трафиком, экологического наблюдения, безопасности и экстренного реагирования, где быстрое обнаружение мелких деталей может иметь большое значение.
Цитирование: Wu, Z., Li, N., Tian, Z. et al. A lightweight feature fusion network for weak and small target detection in remote sensing. Sci Rep 16, 13295 (2026). https://doi.org/10.1038/s41598-026-43560-2
Ключевые слова: дистанционное зондирование, обнаружение мелких объектов, лёгкая нейронная сеть, съёмка с дронов, наблюдение за Землёй