Clear Sky Science · ru

Набор подводных изображений для сегментации экземпляров рыб с учётом окклюзий

· Назад к списку

Почему считать рыб под водой сложно

Рыбные фермы превращаются в высокотехнологичные производства, где камеры и алгоритмы незаметно следят за тысячами животных. Тем не менее на удивление простая задача — отличить одну рыбу от другой в переполненном танке — оказывается весьма трудной. Рыбы плывут над и под друг другом, закрывают камеру и появляются лишь частично на краю кадра. В этой работе представлен новый набор подводных изображений, Fish Occlusion Dataset (FOD), созданный, чтобы помочь компьютерам распознавать отдельных рыб даже если те частично скрыты. Эта способность важна для автоматизации кормления, проверки здоровья и оценки поголовья в современной аквакультуре.

Новая библиотека изображений для занятых аквариумов

В основе исследования лежит большой, тщательно отобранный набор подводных фотографий карася, распространённой промысловой рыбы. Исследователи записали 66 рыб в бассейне с помощью специальной подводной камеры, установленной над водой, затем извлекли отдельные кадры из видеозаписей. После удаления почти одинаковых изображений у них получилось более тысячи кадров с одной рыбой и сотни сцен с несколькими особями. Каждая видимая рыба была обведена вручную на уровне отдельных пикселей, давая алгоритмам доступ к точным контурам вместо грубых ограничивающих прямоугольников. В сумме в FOD входит 14 376 изображений и 144 894 тщательно размеченных рыб, что делает набор одним из самых детализированных публичных ресурсов такого рода.

Figure 1
Figure 1.

Обучение компьютеров «видеть» сквозь наложение

Чтобы всесторонне проверить, как алгоритмы справляются с плотными скоплениями, команде понадобилось много примеров перекрывающихся рыб. Ручная отрисовка точных контуров в таких сценах чрезвычайно трудоёмка, поэтому они применили хитрый приём. Сначала они сгенерировали высококачественные маски для отдельных рыб. Затем цифровым образом вырезали эти рыбы и вставляли их на фоновые изображения в новых композициях. Поворачивая, масштабируя и смещая объекты, а также ограничивая степень их перекрытия, они создали 13 000 синтетических изображений с реалистичными густыми стаями и контролируемой степенью наложения. Гладкое сглаживание краёв делает такие композитные кадры естественными. Финальный набор сочетает оригинальные и синтетические сцены, обеспечивая одновременно разнообразие и реализм.

Оценка степени скрытости каждой рыбы

Не все окклюзии одинаковы: полностью видимая рыба распознаётся гораздо легче, чем та, что отображается лишь несколькими разрозненными фрагментами. Чтобы учесть это, авторы разделили каждую рыбу на три простые категории. «Целая» рыба полностью видима, «часть» — частично закрыта другими, а «фрагмент» появляется только в виде отдельных кусочков. Этот дополнительный уровень разметки позволяет исследователям точно понимать, где их алгоритмы испытывают трудности. Анализ показал, что большинство рыб в наборе относятся к категории «часть», что отражает реальную ситуацию в переполненных ёмкостях. Авторы также показали, что традиционные сводные метрики могут скрывать провалы при работе с крошечными фрагментами, поэтому представление результатов по уровню окклюзии даёт более ясное представление о сильных и слабых сторонах моделей.

Как современные алгоритмы справляются

Чтобы продемонстрировать возможности FOD, команда протестировала восемь популярных методов сегментации изображений, включая как долгоживущие модели на основе детекторов, так и более новые «безпредложенческие» архитектуры, работающие напрямую с областями изображения. Все показали высокую среднюю точность на наборе, а одна из методов, Mask2Former, выделилась за счёт наиболее чётких контуров, особенно при перекрытиях рыб. Тем не менее даже лучшие модели сбрасывали обороты, когда рыбы распадались на фрагменты — качество заметно падало по сравнению с полностью видимыми особями. Дополнительный эксперимент показал, почему смесь реальных и синтетических данных в FOD важна: обучение только на реальных сценах плохо готовит модели к окклюзиям, а обучение лишь на синтетике упускает некоторые детали реальных изображений. Комбинация обоих типов данных дала наилучшие, наиболее устойчивые результаты.

Figure 2
Figure 2.

Что это значит для более умных рыбных ферм

Практически этот новый набор даёт полигон для систем компьютерного зрения, которые должны работать в реальных рыбных фермах, где чёткие обзоры скорее исключение, чем правило. Сосредоточившись на перекрывающихся особях и открыто предоставив как изображения, так и код, использованный для их создания, авторы закладывают основу для более надёжных инструментов мониторинга с учётом окклюзий. Хотя текущая коллекция охватывает только один вид в контролируемом резервуаре, тот же подход можно распространить на другие виды и более сложные условия. По мере распространения этих методов фермеры смогут получать непрерывную, точную информацию о численности, поведении и росте — помогая эффективнее расходовать корм, раньше выявлять проблемы со здоровьем и управлять хозяйством более устойчиво.

Цитирование: Wang, X., Yu, H., Zhang, C. et al. An underwater image dataset for occlusion-aware fish instance segmentation. Sci Data 13, 526 (2026). https://doi.org/10.1038/s41597-026-06898-w

Ключевые слова: подводная съёмка, рыбоводство, компьютерное зрение, сегментация экземпляров, окклюзия