Clear Sky Science · ru
Совместная сеть с многократным вниманием для обнаружения мелких объектов в реальном времени на снимках БПЛА
Почему важно замечать крошечные детали с высоты
По мере того как дроны становятся обычным инструментом для мониторинга трафика, реагирования при бедствиях и обеспечения безопасности, им необходимо надёжно обнаруживать очень маленькие объекты — например автомобили, велосипеды или людей — снятые с большой высоты. На таких аэрофотоснимках цели занимают всего несколько пикселей, легко теряются в тенях, бликах и в сложном фоне. В этой статье представлен новый компьютерный вид, названный Collaborative Multi-Attention Network (CMA-Net), разработанный для быстрой и точной детекции подобных мелких объектов на изображениях с дронов в режиме реального времени.
Сложности при наблюдении мелких объектов с высоты
Обнаружение мелких объектов на снимках с дронов сложнее, чем на обычных уличных фотографиях. Поскольку дроны летают высоко и снимают под разными углами, транспортные средства и люди выглядят крошечными и размытыми, а освещение может быстро меняться. Традиционные двухэтапные детекторы могут быть очень точными, но часто слишком медленны для применения в реальном времени на летающих платформах с ограниченными вычислительными ресурсами и пропускной способностью связи. Быстрые одноэтапные методы работают в реальном времени, но склонны пропускать мелкие цели, потому что их детали постепенно размываются по мере обработки изображения слоя за слоем. Авторы утверждают, что для лучшей детекции мелких объектов нужны более продуманные способы объединения информации по шкале и фокусировки вычислительного внимания на наиболее информативных участках изображения.

Построение более умной лестницы признаков
CMA-Net стартует с широко используемого базового блока обработки изображений ResNet-50 и затем добавляет Efficient Bi-directional Feature Pyramid Network (E-BiFPN). Эта структура формирует своего рода «лестницу» карт признаков разных размеров, позволяя системе смешивать тонкие детали из ранних слоёв с более абстрактным контекстом из глубоких слоёв. В отличие от предыдущих решений, E-BiFPN сокращает лишние высокоуровневые слои и добавляет специальный лёгкий блок обработки, использующий частичные свёртки для уменьшения вычислений. Взвешенная схема слияния затем обучается определять, насколько можно доверять поверхностным или глубоким признакам на каждом масштабе, так что хрупкая информация о крошечных автомобилях или пешеходах усиливается, а фоновые шумы ослабляются.
Обучение сети тому, куда смотреть
Помимо реорганизации признаков, CMA-Net использует механизмы внимания, имитирующие то, как люди фокусируются на релевантных частях сцены. Модуль Dual-Dimensional Channel Attention (DDCA) анализирует признаки независимо по ширине и высоте изображения, вместо того чтобы сжимать всё в одну глобальную сводку. Такой подход помогает сети улавливать дальние закономерности как по горизонтали, так и по вертикали, сохраняя указания на положение, что критично, когда мелкие объекты сливаются со сложным окружением. Параллельно модуль Multi-Scale Foreground Attention (MSFA) связывает крупные, легко различимые объекты в глубоких слоях с более мелкими в поверхностных слоях. Путём выборки и слияния информации с трёх масштабов MSFA учится выделять передний план, где с высокой вероятностью находятся транспортные средства, и подавлять отвлекающие фоновые текстуры.

От улучшенных признаков к быстрым решениям
Выходы ветвей DDCA и MSFA объединяются в насыщенные карты признаков, благоприятные для обнаружения мелких объектов, которые передаются в «безякорную» детекционную голову. Вместо опоры на плотную сетку заранее заданных рамок эта голова напрямую предсказывает и категорию, и позицию объектов, упрощая вычисления и делая обучение более гибким. Авторы оценили CMA-Net на двух требовательных публичных наборах данных с дронов, UAVDT и Stanford Drone, которые включают многолюдные дороги, разнообразную погоду и дневные и ночные условия. CMA-Net показала точность 67.2% и 62.0% на этих наборах, при этом работая с частотой 64 кадра в секунду, что означает возможность обработки видео в реальном времени и превосходство над многими популярными детекторами, включая некоторые модели семейства YOLO и более сложные модели на базе трансформеров.
Что это означает для практического использования дронов
Для неспециалистов главное — CMA-Net значительно улучшает способность дрона замечать маленькие, трудноразличимые объекты, не замедляя работу. За счёт аккуратного слияния информации на нескольких масштабах и направления внимания как по каналам изображения, так и между передним планом и фоном метод предотвращает пропуск маленьких автомобилей и людей. Это сочетание точности и скорости делает подход перспективным для практических применений, таких как интеллектуальный мониторинг трафика, наблюдение за толпой и реагирование в чрезвычайных ситуациях, где промах в обнаружении или слишком медленная реакция могут иметь серьёзные последствия.
Цитирование: Yang, J., Yue, X. & Wu, L. A collaborative multi-attention network for real-time small object detection in UAV imagery. Sci Rep 16, 5852 (2026). https://doi.org/10.1038/s41598-026-36440-2
Ключевые слова: зрение дронов, обнаружение мелких объектов, мониторинг в реальном времени, сети внимания, мониторинг трафика