Clear Sky Science · ru

YOLO-MFD: многоуровневая многошкальная система признаков и динамическая голова для обнаружения подводных объектов на береговой линии

2026-03-26 · Назад к списку

Более умные «глаза» под городскими набережными

По мере того как в городах возводят все больше стен, пирсов и сборных укреплений вдоль рек и озер, большая часть критической инфраструктуры оказывается скрытой под водой. Проверить, устойчивы ли эти блоки, нет ли в них трещин или мусора, сложно — особенно в мутной мелководной воде с плохой видимостью. В этой статье представлен YOLO-MFD — новая система компьютерного зрения, которая помогает подводным роботам надежнее и быстрее обнаруживать мелкие и бледные объекты вдоль береговой линии, даже когда вода мутная, а сцена перегружена элементами.

Почему подводные изображения так трудно интерпретировать

Реки, озера и городские прибрежные воды редко бывают кристально чистыми. Свет поглощается и рассеивается, цвета смещаются в сторону зелёного или синего, а взвешенные частицы размывают контуры. Мелкие существа, морской мусор или дефекты в сборных береговых блоках могут быть крошечными, с низкой контрастностью и плотно сгруппированными. Стандартные системы обнаружения объектов, изначально разработанные для чётких уличных сцен, часто пропускают такие цели или путают их с фоном. При этом инспекционные роботы и встроенные устройства, применяемые у берегов, имеют ограниченные вычислительные ресурсы, поэтому решение должно быть одновременно точным и экономным в вычислениях.

Трёхчастный «мозг» для мутной воды

YOLO-MFD построен на популярной семье детекторов YOLO, но перестраивает внутренний «мозг» в трёх скоординированных этапах. Во-первых, новая «спина» под названием CUMANet (Cross-scale Unified Multi-scale Attention Network) обучается извлекать признаки из изображений с учётом широкого контекста. Она использует параллельные ветви и специализированную свёртку, которая ведёт себя как многоветвевой модуль в ходе обучения, но сводится к одной эффективной операции при развёртывании. Это помогает сети смотреть дальше локального шума, захватывать дальние сигналы и сохранять важные детали, которые могут быть размыты мутностью и искажением цвета.

Учёт крошечных подсказок на разных масштабах

Второй этап, Adaptive Feature Modulation (AFM), решает распространённую проблему систем зрения: при объединении информации с грубых и мелких разрешений мелкие детали часто теряются. AFM объединяет две карты признаков, сначала согласуя их размеры и каналы, а затем вычисляя мягкие независимые «затворы» для каждой ветви. Вместо того чтобы позволять доминировать одному масштабу, AFM даёт обеим ветвям вносить вклад всякий раз, когда они несут полезный сигнал, и добавляет резидуальное сопряжение, чтобы не утратить слабые, но важные паттерны. Такое сбалансированное многомасштабное слияние особенно полезно при обнаружении мелких морских огурцов, морских звёзд или трещин в бетоне, которые едва выделяются на фоне.

Более гибкий финальный решатель

Финальный этап, DPNDyHead (Dual-Pooling and Normalized Dynamic Head), уточняет признаки непосредственно перед тем, как система примет решение о том, что и где находится. Он заимствует идею деформируемых свёрток, которые смещают точки выборки, чтобы лучше следовать за размытыми или искаженными формами под водой. Для работы с объектами очень разного размера DPNDyHead использует как усреднённый, так и максимальный пулинг по масштабам, сочетая глобальный контекст с резкими локальными откликами — например, гранями или текстурами. Шаг нормализации стабилизирует статистику признаков перед генерацией задач-специфичных активаций, снижая влияние сдвигов цвета и неравномерного освещения. В совокупности эти приёмы помогают согласовать уверенность классификации (что это за объект) с точностью локализации (где он находится).

Насколько хорошо это работает в реальной среде?

Авторы протестировали YOLO-MFD на двух общедоступных подводных наборах данных из аквакультуры и прибрежных ферм, которые содержат много мелких, перегруженных целей и сильное ухудшение качества изображений. На наборах DUO и UDD новая архитектура превзошла классические двухэтапные детекторы, методы без якорей, современные модели на основе трансформеров и недавние варианты YOLO. Она показала более высокий средний точностный показатель (mAP) и отзывчивость — то есть находила больше истинных объектов и совершала меньше ошибок — при использовании всего нескольких миллионов параметров и умеренных вычислительных ресурсов. Детальные эксперименты показали, что каждый из трёх модулей (CUMANet, AFM и DPNDyHead) вносил измеримый вклад, а их сочетание давало наилучший баланс точности, надёжности и скорости.

Более прозрачное представление для безопасных берегов

Практически это исследование даёт подводным роботам и системам мониторинга более чёткое и надёжное представление о том, что находится вдоль городских набережных и инженерных русел рек. Разработав детектор объектов, который целенаправленно противодействует мутности воды, дисбалансу масштабов и несогласованным предсказаниям, авторы предлагают инструмент, способный лучше отслеживать состояние инфраструктуры, поддерживать экологические обследования и помогать в интеллектуальном управлении сборными береговыми конструкциями. В дальнейшем, по мере изучения более широких сред и ещё более лёгких версий модели, методы вроде YOLO-MFD могут стать ключевой частью рутинных подводных инспекций, помогая сохранять прибрежные города и внутренние водные пути в безопасности и надлежащем состоянии.

Цитирование: Gang, Y., Li, T., Li, S. et al. YOLO-MFD: a multi-scale feature and dynamic head framework for prefabricated shoreline underwater object detection. Sci Rep 16, 10971 (2026). https://doi.org/10.1038/s41598-026-45591-1

Ключевые слова: обнаружение подводных объектов, береговая инфраструктура, компьютерное зрение, автономные подводные аппараты, глубокое обучение