Clear Sky Science · ru

MFR-YOLO: совершенствование обнаружения объектов с БПЛА с помощью многоуровневого уточнения признаков через деформируемую свертку и глобальную внимательность

· Назад к списку

Почему важнее видеть дронам четче

От мониторинга дорожного движения до поисково‑спасательных операций при бедствиях дроны всё чаще выступают в роли летающих глаз над городами и полями. Однако заметить крошечные, быстро движущиеся машины или людей с большой высоты гораздо сложнее, чем кажется. В этом исследовании представлен MFR-YOLO — уточнённый подход, который позволяет дронам в реальном времени выделять множество мелких и деформированных объектов, помогая воздушным системам принимать более безопасные и обоснованные решения.

Задача видения с высоты

Камеры дронов фиксируют переполненные улицы, поля или зоны бедствия, где большинство целей занимает всего несколько пикселей. Объекты быстро меняют размер и угол по мере движения дрона, а здания, деревья и тени смешиваются с тем, что нужно обнаружить. Стандартные системы обнаружения часто пропускают такие крошечные цели, путают их с фоном или замедляются при повышении точности. Популярная семья детекторов YOLO уже балансирует скорость и точность, но её обычные компоненты всё ещё теряют тонкие детали, испытывают трудности с повернутыми или вытянутыми формами и не имеют мощных средств для отсеивания шумного фона.

Figure 1. Как дроны превращают загруженные аэроизображения в более четкие карты крошечных автомобилей и людей в режиме реального времени.
Figure 1. Как дроны превращают загруженные аэроизображения в более четкие карты крошечных автомобилей и людей в режиме реального времени.

Новый способ сохранять мелкие детали

Авторы опираются на YOLOv12 и разрабатывают MFR-YOLO так, чтобы сохранить мелкие детали при сохранении скорости. Во‑первых, они добавляют модуль извлечения признаков с мультимасштабной обработкой, который идёт по двум параллельным путям. Один путь фокусируется на сохранении чётких контуров и текстур, чтобы люди, велосипеды и автомобили не исчезали при уменьшении изображений внутри сети. Другой путь использует гибкие фильтры, способные «изгибать» позиции выборки, лучше соответствуя объектам, которые выглядят повернутыми, растянутыми или искаженными из‑за меняющейся точки обзора дрона. Слияние этих путей даёт более богатые карты признаков, которые по‑прежнему содержат тонкую информацию, нужную для распознавания очень мелких целей.

Обучение модели фокусироваться на важном

Чтобы сеть не отвлекалась на небо, деревья или здания, команда внедряет модуль глобального внимания как на этапе построения признаков, так и при их смешении. Этот модуль учится выделять регионы и паттерны, принадлежащие вероятным целям, одновременно приглушая несущественные области. Одна часть рассматривает изображение в целом, чтобы выделить важные места — например, ряды машин или скопления пешеходов. Другая часть настраивает силу разных типов признаков, так что каналы, описывающие полезные края и текстуры, усиливаются, а шумные — ослабляются. В совокупности эти механизмы внимания помогают модели направлять усилия на реальные объекты вместо фонового шума.

Figure 2. Как уточнённые слои и механизмы внимания помогают системе зрению дрона поэтапно разделять и усиливать множественные мелкие объекты.
Figure 2. Как уточнённые слои и механизмы внимания помогают системе зрению дрона поэтапно разделять и усиливать множественные мелкие объекты.

Сочетание крупного и детального обзора

Помимо отдельных улучшений, MFR-YOLO также уточняет способ смешения информации на разных масштабах. Обновлённый блок признаков, названный C3K2-PPA, делит данные на три ветви. Одна концентрируется на крошечных локальных деталях, другая смотрит на более широкие участки сцены, а третья связывает их через короткую цепочку операций. Сеть затем учится распределять вес между этими ветвями для каждого конкретного изображения, возвращая смесь с помощью обходной связи для сохранения стабильности обучения. Такая архитектура позволяет системе учитывать как мелкие объекты, так и более широкий контекст вокруг них, что особенно важно, когда множество транспортных средств или людей перекрываются или частично скрыты.

Насколько эффективен новый подход

Исследователи проверили MFR-YOLO на двух общедоступных наборах данных с дронов: VisDrone2021, охватывающем оживлённые городские улицы и разные погодные условия, и UA-DETRAC, ориентированном на дорожное движение. По сравнению с несколькими известными детекторами, включая Faster R‑CNN, RetinaNet, последние версии YOLO и моделями на основе трансформеров, MFR-YOLO показал более высокую общую точность и, что важно, обнаружил гораздо больше очень мелких объектов, пропуская меньше целей. Всё это было достигнуто при сохранении скорости обработки на уровне, превышающем требуемый для работы в реальном времени на типичном встроенном оборудовании дрона, и без значительного роста памяти или вычислительной нагрузки.

Что это значит для повседневного использования дронов

Для неспециалистов ключевая мысль такова: MFR-YOLO помогает дронам яснее и быстрее видеть мелкие и переполненные объекты в сложных реальных сценах. За счёт продуманного переразработки способов сохранения деталей, адаптации к искажениям форм, фокусировки внимания и объединения локальных и глобальных представлений авторы повышают качество обнаружения без жертв скорости. Это делает инструменты на базе дронов для безопасности дорожного движения, мониторинга сельского хозяйства и экстренных служб более надёжными и даёт дорожную карту по адаптации моделей зрения для других требовательных условий.

Цитирование: Ge, J., Lv, H., Guo, Y. et al. MFR-YOLO: advancing UAV object detection with multi-scale feature refinement via deformable convolution and global attention. Sci Rep 16, 15587 (2026). https://doi.org/10.1038/s41598-026-45641-8

Ключевые слова: обнаружение объектов с БПЛА, обнаружение мелких объектов, YOLO, съёмка с дрона, компьютерное зрение