Clear Sky Science · ru

Улучшенная сеть YOLOv11 для обнаружения морского мусора в подводной среде

· Назад к списку

Почему важно обнаруживать мусор под водой

Глубоко под поверхностью океана пластиковые пакеты, бутылки, рыболовные лески и другой мусор постепенно накапливаются. Этот хлам вредит морской жизни, засоряет уязвимые места обитания и может мешать подводным роботам, которые ученые используют для изучения и защиты моря. В изложенной здесь статье описана более умная система компьютерного зрения, которая помогает камерам и роботам автоматически находить и помечать подводный мусор в реальном времени, даже в мутной и загроможденной воде.

Figure 1
Figure 1.

Сложности видимости под водой

В отличие от четких дневных снимков на суше, подводные изображения часто темные, туманные и имеют синий или зеленоватый оттенок. Свет быстро затухает с глубиной, песок и планктон мутят воду, а предметы мусора часто малы, частично скрыты или похожи на камни и растения. Традиционные методы обработки изображений испытывают трудности в таких условиях, и даже современные детекторы на основе глубокого обучения могут пропускать крошечные объекты или принимать текстуру фона за мусор. Между тем точное и быстрое обнаружение необходимо для картирования загрязнений, управления роботами для уборки и отслеживания динамики морского мусора со временем.

Опираясь на быстрый инструмент зрения

Авторы опираются на YOLOv11, недавнего представителя семейства детекторов «You Only Look Once». Модели YOLO популярны тем, что просматривают изображение один раз и в реальном времени предсказывают местоположения и типы множества объектов. Однако стандартная архитектура YOLOv11 была разработана для более типичных сцен, например улиц или интерьеров, а не для визуально сурового подводного мира. Чтобы сократить этот разрыв, исследователи переработали два ключевых узла сети: то, как она сначала извлекает визуальные паттерны из изображения, и как затем решает, какие фрагменты являются важными объектами мусора, а какие — просто шумным фоном.

Новый способ выделять детали на разных масштабах

Первое улучшение — модуль под названием MixStructureBlock, который заменяет стандартный блок в основе (backbone) YOLOv11. Вместо использования одной фиксированной схемы фильтров MixStructureBlock запускает несколько ветвей параллельно, рассматривающих сцену с разными «окнами» и шагами. Это помогает сети замечать как тонкие детали, например кромку крышки бутылки, так и более крупные формы, например плывущий пакет. Кроме того, блок включает простые механизмы внимания, которые учатся акцентировать информативные цвета и области и ослаблять влияние бесполезных фоновых фрагментов. В результате получается более богатый, чище представленный набор признаков, делающий мелкие и бледные куски мусора легче различимыми.

Figure 2
Figure 2.

Обучая сеть, куда обращать внимание

Второе улучшение — модуль Efficient Multi-scale Attention (EMA), добавленный в более поздней части сети, где делаются предсказания. EMA анализирует карты признаков как в пространственном, так и в канальном измерениях, фактически задавая два вопроса одновременно: «Где на изображении происходит нечто важное?» и «Какие типы паттернов наиболее релевантны сейчас?» За счет агрегирования информации на нескольких масштабах и использования легковесных математических операций EMA фокусирует внимание сети на вероятных областях с мусором — например пересекающихся объектах или тусклых предметах, удаленных от камеры — при этом модель остается компактной и быстрой, пригодной для работы в реальном времени на встроенном оборудовании.

Проверка системы на практике

Чтобы оценить свою архитектуру, команда обучала и тестировала модель на TrashCan — большой публичной коллекции глубоководных изображений, собранной в Японии. Одна версия датасета помечает мусор по конкретным типам объектов (например стакан, пакет или металлическая труба), а другая группирует предметы по материалам (например пластик или ткань). В обеих версиях улучшенная сеть превосходит несколько сильных базовых методов, включая оригинальный YOLOv11, более ранние системы обнаружения морского мусора и другие подводные варианты YOLO. Она не только корректнее обнаруживает больше мусора, особенно мелкие и скопившиеся объекты, но и делает это при заметно небольшом размере модели — около 5 мегабайт — что хорошо подходит для энергозависимых подводных аппаратов.

Что это значит для чище океанов

Проще говоря, исследование показывает, что вдумчивый пересмотр того, как ИИ «смотрит» на подводные изображения, действительно может повысить эффективность обнаружения мусора под волнами. Комбинируя извлечение паттернов на нескольких масштабах и умное внимание к важным областям, предложенная система находит больше мусора, оставаясь при этом достаточно эффективной для работы в реальном времени. Развернутая на видеосистемах и подводных роботах, такая технология может помочь ученым и экологическим агентствам картировать горячие точки загрязнения, направлять усилия по очистке и отслеживать, работают ли политики по сокращению морского хлама — приближая нас к более здоровым океанам.

Цитирование: Yuanwei, J., Yijiang, D., Xuemei, W. et al. An improved YOLOv11 network for marine debris detection in underwater environment. Sci Rep 16, 7074 (2026). https://doi.org/10.1038/s41598-026-38305-0

Ключевые слова: обнаружение морского мусора, подводная робототехника, обнаружение объектов, глубокое обучение, загрязнение океана