Clear Sky Science · ru

YOLO-Starfish: обнаружение рыб — обучение сложным подводным признакам

· Назад к списку

Почему так трудно заметить рыб под водой

От изменения климата до переловов — понимание происходящего под поверхностью воды имеет ключевое значение. Учёные и сотрудники рыбных хозяйств всё чаще полагаются на подводные камеры для подсчёта и идентификации рыб, но собранные изображения часто мутные, имеют сине‑зеленую окраску и заполнены перекрывающимися животными. Ручной просмотр тысяч часов видео занимает много времени и подвержен ошибкам. В статье представлен YOLO‑Starfish — компактная система искусственного интеллекта, предназначенная помочь подводным роботам и камерам автоматически находить рыб в таких сложных условиях, а также новый, детализированный набор изображений пресноводных рыб.

Figure 1
Figure 1.

Подводный мир глазами камеры

Обнаружение объектов под водой — это не просто обычный анализ изображений с добавлением воды. Свет ведёт себя совсем иначе в реках и озёрах: красные длины волн быстро исчезают, частицы рассеивают свет во многие стороны, а видимость может меняться от чистой до мутной в пределах нескольких метров. Сами рыбы добавляют ещё один уровень сложности. Разные виды могут выглядеть очень похоже, представители одного вида варьируются от крошечных молоди до крупных взрослых особей, и они часто перекрывают друг друга, прячутся среди растений или плавают в тени и из тени. Многие существующие подходы ИИ обучались на относительно чистых, хорошо освещённых изображениях и редко сталкиваются с такими сложными сценами, поэтому при работе в естественных условиях они испытывают трудности.

Создание реалистичной коллекции фотографий рыб

Чтобы ликвидировать этот разрыв, авторы сначала собрали набор данных Underwater Freshwater Fish Dataset (UFFD) — большую коллекцию реальных подводных изображений. Они взяли публичные видеозаписи из разнообразных пресноводных местообитаний, автоматически извлекали кадры через регулярные интервалы и затем кропотливо отбирали и разметили качественные изображения. Вместо того чтобы сосредоточиться только на нескольких известных видах карпа, они решили помечать каждую узнаваемую рыбу, в результате получив 19 категорий, включая класс «неизвестная рыба» для особей, которые нельзя было уверенно определить. В итоговый набор вошли 18 594 изображения (16 904 уникальных), охватывающие широкий диапазон чистоты воды, условий освещения, расстояний до камеры и размеров рыб. Важно, что распределение по видам следует «длиннохвостому» закону: несколько видов распространены, а многие — редки, что очень похоже на реальные экосистемы.

Figure 2
Figure 2.

Более умный способ обработки деградированных изображений

На основе этого набора команда создала YOLO‑Starfish — улучшенную версию популярного детектора в реальном времени YOLOv8. Две ключевые идеи лежат в основе обновления. Во‑первых, модуль C2Star изменяет способ объединения внутренних признаков сети. Вместо простого их суммирования он умножает их поэлементно в так называемой «звёздной операции». Это отражает то, как свет фактически ослабевает при прохождении через воду, где сигналы масштабируются, а не просто теряются в шуме. С математической точки зрения такое умножение позволяет сети представлять более сложные комбинации форм и цветов без увеличения громоздкости модели, что критично для работающих на батарее подводных роботов с ограниченной вычислительной мощностью.

Позволяя сети решать, что действительно важно

Второе новшество, модуль Attention‑Driven Enhancement Module (ADEM), сосредоточено на том, какая информация в каждом изображении заслуживает доверия. Поскольку вода часто лишает часть цветовой информации — особенно красного канала — обычная практика равного учёта всех цветовых каналов может вводить детектор в заблуждение. ADEM сжимает информацию всех цветовых каналов в одно управляющее значение, которое оценивает их общую надёжность. Далее оно комбинируется с пространственным вниманием, выделяющим конкретные области изображения, с использованием простого правила «взять максимум» вместо прямого суммирования. В сценах, где цветовые подсказки сильны, модель больше опирается на информацию каналов; когда цвета вымыты, она полагается больше на пространственные паттерны, такие как форма и контуры. Полученная карта внимания затем используется для гибкого усиления или подавления признаков по всему изображению на основе данных.

Насколько хорошо работает YOLO‑Starfish?

Авторы протестировали YOLO‑Starfish на трёх эталонах: их новом наборе UFFD, существующем подводном наборе RUOD и широко используемом общем наборе COCO2017. Во всех трёх случаях добавление C2Star и ADEM улучшило показатели обнаружения по сравнению с базовой YOLOv8, часто на несколько процентных пунктов, при этом слегка уменьшив количество параметров модели и вычислений. Прирост был особенно заметен в сложных случаях UFFD, таких как редкие «хвостовые» виды с небольшим числом обучающих примеров и универсальная категория «неизвестная рыба», что предполагает лучшую обобщаемость на новые или неоднозначные внешности. На COCO2017 YOLO‑Starfish также держался на уровне с другими передовыми компактными моделями, показывая, что улучшения полезны в широком спектре задач, а не только для подводных изображений.

Что это означает для наблюдения за водной средой

По сути, исследование показывает, что продуманно спроектированный ИИ способен сократить разрыв между чистыми лабораторными изображениями и запутанным, искажённым цветом миром под водой. Сочетая реалистичный набор данных пресноводных рыб с физически вдохновленной обработкой признаков (C2Star) и адаптивным вниманием (ADEM), YOLO‑Starfish обеспечивает более точное обнаружение рыб без требования мощного аппаратного обеспечения. Для экологов, менеджеров рыбных ресурсов и робототехников такой инструмент может сделать долгосрочный и масштабный мониторинг водной биоты гораздо более практичным, предоставляя более чёткое автоматизированное представление подводных экосистем и их изменений со временем.

Цитирование: Gong, R., Xu, J., Zheng, Z. et al. YOLO-Starfish: fish object detection learning complex underwater features. Sci Rep 16, 13964 (2026). https://doi.org/10.1038/s41598-026-44187-z

Ключевые слова: обнаружение рыб под водой, компьютерное зрение, глубокое обучение, водная экология, роботизированный мониторинг