Clear Sky Science · ru
Лёгкая модель LMW-YOLO для обнаружения мелких объектов на снимках дистанционного зондирования
Видеть мелочи из космоса
От городского движения до судов в порту — многое из важного на Земле в аэрофотоснимках и спутниковых изображениях выглядит как крошечные пятнышки. Однако обучить компьютеры надёжно распознавать такие крошечные объекты оказывается удивительно сложно, особенно на лёгких устройствах вроде дронов или небольших спутников. В этой статье представлена LMW-YOLO — компактная, но мощная система компьютерного зрения, специально разработанная для нахождения очень мелких объектов в больших засорённых дистанционных изображениях без необходимости в тяжёлых вычислениях.
Почему трудно найти крошечные цели
Снимки дистанционного зондирования делаются с большой высоты, поэтому автомобили, лодки и люди часто занимают всего несколько пикселей. Стандартные детекторы, например популярная семейство YOLO, уменьшают размер изображения слой за слоем, чтобы ускорить обработку и уловить высокоуровневые признаки. Но для объектов размером всего 5–10 пикселей такое понижение разрешения может стереть их ещё до того, как сеть «увидит» их. Ранние попытки исправить это обычно опирались на более глубокие сети, механизмы внимания или трансформеры. Эти подходы повышают точность, но оказываются слишком тяжёлыми для дронов, спутников или периферийных устройств с ограниченной памятью и энергопотреблением. Существует напряжённость между желанием сохранить модель лёгкой и необходимостью сохранить достаточно деталей, чтобы распознавать крошечные цели на фоне зданий, деревьев и воды.
Настройка сети по уровням
LMW-YOLO берёт за основу современный лёгкий YOLO-бэкбон и ломает привычку делать все слои одинаковыми. Вместо единого универсального блока авторы предлагают стратегию «разделения контекста и масштаба» (Context-Scale Decoupled), которая даёт каждой части сети специализированную роль. На мелких уровнях, где изображения всё ещё относительно крупные, модели трудно охватить достаточно большой контекст, чтобы правильно интерпретировать крошечные объекты. Здесь авторы добавляют модуль агрегации контекста с большим ядром (Large-Kernel Context Aggregation, LKCA), который имитирует огромные фильтры, комбинируя несколько меньших и эффективных свёрток. Это позволяет сети смотреть на более широкую область и при этом сохранять тонкие детали, важные для распознавания маленьких машин или судов. На среднем уровне задача меняется: модели нужно обрабатывать объекты очень разных размеров, не теряя пространственной чёткости.

Смотрение на многих масштабах одновременно
Чтобы справиться с этим разнообразием, авторы вводят модуль многомасштабного дилатированного восприятия (Multi-Scale Dilated Perception, MSDP) в более глубоких признаковых картах. Модуль разделяет поток информации на две ветви. Одна ветвь проходит без изменений, сохраняя чёткие позиционные детали. Другая — проходит через набор параллельных ветвей свёрток, каждая из которых «видит» на разном диапазоне, от локального до более широкого, благодаря дилатированным фильтрам с разными шагами. Повторно объединяя эти потоки, сеть получает богатое многомасштабное представление: она может различать плотно скомпонованные маленькие автомобили, большие суда и протяжённые структуры вроде мостов, при этом затраты на параметры и вычисления остаются крайне низкими. Вместе LKCA и MSDP позволяют сети уделять внимание как локальным деталям, так и более широкому контексту в тех слоях, где это важно.
Более умное обучение на несовершенных данных
Даже при улучшённых признаках обучение на реальных аэрофотоданных остаётся сложной задачей. Датасеты дистанционного зондирования часто содержат шумные метки, частично скрытые объекты или странные формы, которые сбивают с толку обычные функции потерь. Многие модели в стиле YOLO используют фиксированные правила, обращающиеся со всеми примерами обучения одинаково, что позволяет нескольким плохим примерам давать вводящие в заблуждение обновления и замедлять или дестабилизировать обучение. LMW-YOLO заменяет это схемой Wise-IoU v3, которая регулирует, насколько сильно каждый пример влияет на обучение, в зависимости от того, насколько хорошо он в данный момент подходит. Примеры, которые уже очень хорошие или явно плохие, получают пониженный вес, в то время как «сложные, но полезные» случаи подчёркиваются. Это динамическое фокусирование помогает модели сходиться быстрее и улучшает точность обрисовки боксов вокруг мелких и плотных объектов.

Доказательства работоспособности в реальных условиях
Команда тестирует LMW-YOLO на трёх требовательных бенчмарках: наборе спутниковых изображений высокого разрешения (NWPU VHR-10), специализированной коллекции экстремально мелких целей (RS-STOD) и большом наборе съёмок с дронов с сильной скученностью и окклюзией (VisDrone2019). По всем трём наборам новая модель превосходит ряд современных детекторов, включая несколько более крупных и сложных систем, при этом используя лишь около 2.6 миллиона параметров и умерённые вычислительные ресурсы. Она также работает в реальном или близком к реальному времени на стандартных CPU, что указывает на её практичность для развёртывания на дронах и небольших платформах, а не только в мощных центрах обработки данных.
Что это значит в перспективе
Для читателей основной вывод таков: нам уже не обязательно выбирать между точностью и эффективностью, когда речь идёт о обнаружении крошечных объектов сверху. Тщательно настраивая, как разные слои сети обрабатывают детали и контекст, и обучая модель функцией потерь, которая умеет игнорировать вводящие в заблуждение примеры, LMW-YOLO даёт более чёткие и надёжные детекции, оставаясь при этом достаточно небольшой для реальных авиационных и спутниковых устройств. Это делает её перспективным компонентом для приложений от мониторинга трафика и портовой безопасности до реагирования на чрезвычайные ситуации и экологических обследований, где каждая крошечная цель в огромном изображении может нести важную информацию.
Цитирование: Qiu, Y., Lin, Z. Lightweight model LMW-YOLO for small object detection in remote sensing images. Sci Rep 16, 11644 (2026). https://doi.org/10.1038/s41598-026-45055-6
Ключевые слова: дистанционное зондирование, обнаружение мелких объектов, лёгкое глубокое обучение, аэрофотосъёмка, архитектура YOLO