Clear Sky Science · ru

Обнаружение объектов под водой в реальном времени посредством динамики в частотной области и пространственно усиленной модуляции признаков

2026-03-24 · Назад к списку

Чёткое видение под волнами

Мир под водой критически важен для продовольственной безопасности, энергетики и экологического здоровья, но его трудно разглядеть. Мутная вода, плавающие частицы и слабое освещение превращают даже простые задачи — например, подсчёт морских звёзд или проверку труб на дне — в серьёзную проблему. В этом исследовании предложен новый метод компьютерного зрения, который помогает подводным роботам и камерам быстрее и точнее обнаруживать мелких морских обитателей, даже когда изображение размыто или замутнено.

Figure 1. Как умная легковесная модель помогает роботам в реальном времени чётко видеть мелких морских животных в мутной воде.

Почему подводное зрение такое сложное

Вода, в отличие от воздуха, преломляет и рассеивает свет, особенно красные и жёлтые длины волн, на которые полагаются наши глаза для контраста. Подводные снимки часто имеют сине-зелёный оттенок, выглядят туманными и малодетализированными, с ярким обратнорасеянием от плавающих частиц. Мелкие животные, такие как гребешки или морские ежи, могут занимать всего несколько пикселей и легко сливаться с камнями, песком или водорослями. Традиционные алгоритмы обнаружения объектов, изначально разработанные для чётких наземных изображений, нередко пропускают такие слабые цели или принимают фоновые помехи за реальные объекты. К тому же подводные роботы и датчики обычно работают на ограниченном оборудовании, поэтому метод должен быть не только точным, но и быстрым и лёгким по ресурсам.

Более быстрый способ анализа зашумлённых изображений

Авторы опираются на семейство моделей Detection Transformers, которые анализируют изображение, изучая взаимосвязи между всеми его частями, вместо того чтобы скользить по нему маленьким окном. Их вариант сохраняет скорость в реальном времени предыдущей системы RT-DETR, но заменяет «основу» сети на новую, названную FasterFDBlock, более подходящую для зашумлённых подводных сцен. Эта основа сочетает приём частичной свёртки, который обрабатывает лишь часть каналов для экономии времени, с представлением изображения в частотной области. Работая в частотной области, модель умеет отличать случайный точечный шум от острых границ, очерчивающих животных, подавляя первый и сохраняя второе, что снижает лишние вычисления.

Сохранение фокуса на мелких существах

Глубокие сети часто теряют тонкие детали при многократном уменьшении разрешения изображения для извлечения высокоуровневых признаков. Это критично для обнаружения маленьких гребешков или морских звёзд, которые уже находятся на грани видимости. Чтобы противостоять этому, исследователи переработали центральный блок внимания в энкодере, создав модуль AIFI-SEFN. Проще говоря, одна ветвь модуля смотрит на общую картину с помощью механизма внимания, а вторая ветвь фокусируется на локальной текстуре и форме. Она агрегирует и масштабирует признаки по разным уровням, использует лёгкие свёртки для захвата краёв и паттернов, а затем управляет пропусканием этих деталей через «затвор». В результате получается более богатое сочетание глобального контекста и чёткой локальной структуры, что помогает мелким животным выделяться на фоне грубого дна и растительности.

Figure 2. Как частотная фильтрация и многомасштабное объединение признаков превращают зашумлённое подводное изображение в ясно выделенные морские существа.

Смешивание информации на разных масштабах

В подводных изображениях объекты редко имеют одинаковый размер: тот же организм может выглядеть крошечной точкой вдалеке или большой массой на переднем плане. Простые способы объединения признаков из мелких и глубоких слоёв, например простое сложение карт признаков, могут похоронить мелкие детали под сильными высокоуровневыми сигналами или позволить шума с мелких уровней доминировать. Новый модуль многомасштабной модуляции признаков решает эту проблему, сначала суммируя то, что «видит» каждый слой, с помощью глобального пуллинга, а затем назначая адаптивные веса семантическим и детализированным признакам для каждого канала. Эти веса суммируются до единицы, поэтому модель вынуждена решать, канал за каналом, что важнее — деталь или широкий контекст. Такое селективное смешение усиливает сигналы реальных целей и ослабляет отвлекающие факторы вроде камней, песка и теней, не требуя значительных дополнительных ресурсов.

Насколько хорошо работает метод

Команда протестировала предложенный подход на сложном открытом наборе подводных изображений, включающем морских огурцов, морских ежей, гребешки и морских звёзд, многие из которых малы, перекрываются или частично скрыты. По сравнению с исходным RT-DETR новая система подняла стандартный показатель обнаружения (mean Average Precision) с 70,4 до 72,1 процента, сократив при этом число параметров более чем на четверть и уменьшив объём вычислений почти на четверть. При этом модель всё ещё работает со скоростью более 70 кадров в секунду, что достаточно быстро для реального времени на типичном графическом оборудовании. Визуальные сравнения тепловых карт и результатов обнаружения показывают, что улучшенная модель точнее фокусируется на реальных животных, игнорирует вводящие в заблуждение текстуры камней и водорослей и находит больше маленьких или с низкой контрастностью целей в мутных или слабо освещённых сценах.

Что это значит для подводных работ

Проще говоря, это исследование показывает, как обучить компактную и быструю модель лучше видеть в одной из самых сложных визуальных сред на Земле. Тщательно управляя обработкой сеткой шумовых частот, локальных деталей и признаков на разных масштабах, авторы делают обнаружение объектов под водой одновременно более точным и более эффективным. Такое сочетание важно для автономных подводных аппаратов и других полевых систем, которые должны быстро и надёжно принимать решения при ограниченных вычислительных ресурсах. По мере адаптации этих методов к большим наборам данных и встроенным платформам они могут помочь учёным мониторить морскую жизнь, инженерам — инспектировать подводные конструкции, а роботам — увереннее ориентироваться в сложном рельефе дна.

Цитирование: Cai, S., Zhu, A. Real-time underwater object detection via frequency-domain dynamics and spatially enhanced feature modulation. Sci Rep 16, 14884 (2026). https://doi.org/10.1038/s41598-026-44628-9

Ключевые слова: обнаружение объектов под водой, автономные подводные аппараты, зрение в реальном времени, распознавание мелких объектов, признаки в частотной области