Clear Sky Science · ru

Улучшение обнаружения редких классов на глубоководных изображениях с помощью генеративного увеличения данных на основе stable diffusion

· Назад к списку

Почему редкую глубоководную жизнь трудно заметить

Глубоко под поверхностью океана крупные животные, населющие донные экосистемы, играют важную роль в их поддержании. Эти существа также оказываются в зоне растущего интереса к глубоководной добыче полезных ископаемых. Учёные стремятся получить автоматические системы видеонаблюдения, которые надёжно находили бы и считали их, но есть проблема: многие виды встречаются всего несколько раз. В этом исследовании изучается, как современные генеративные алгоритмы обработки изображений могут создавать реалистичные дополнительные примеры редких видов, помогая программам обнаружения стать точнее без необходимости отправлять больше кораблей в море.

Фотосъёмка в труднодоступном мире

Команда работала с двумя крупными коллекциями донных фотографий, сделанных в поле полиметаллических конкреций в западной части Тихого океана. Один набор был получен при помощи буксируемой камерной системы, расположенной в нескольких метрах над дном, другой — с автономного свободно плавающего робота. В сумме снимки охватывали 16 типов животных, включая морских огурцов, губок, кораллы, морских звезд, офиур и осьминогов. Как и во многих датасетах дикой природы, распределение примеров было крайне неравномерным: несколько распространённых таксонов встречались часто, тогда как для ряда групп было менее 50 помеченных экземпляров. Поскольку большинство животных занимает менее десятой доли процента каждого изображения, а эксплуатация камер на глубинах свыше 4000 метров дорога, простое собирание более сбалансированных данных на практике непрактично.

Figure 1. ИИ-сгенерированные изображения морского дна уравнивают представление редких и распространённых видов, улучшая обнаружение глубоководной фауны
Figure 1. ИИ-сгенерированные изображения морского дна уравнивают представление редких и распространённых видов, улучшая обнаружение глубоководной фауны

Обучение генератора изображений редкой донной фауне

Чтобы справиться с этим дисбалансом, исследователи обратились к популярному методу генерации изображений на базе диффузионных моделей. Они взяли мощную общую модель, обученную на бытовых сценах, и аккуратно адаптировали её к глубоководной съёмке с помощью лёгкого метода тонкой настройки. Сначала они вырезали 175 чётких примеров семи редких групп животных, таких как бриозои, некоторые кораллы и осьминоги, и использовали их для обучения модели генерации правдоподобных передних планов каждого типа. Простые текстовые подсказки варьировали, чтобы стимулировать изменения поз, окраски, освещения и угла обзора, так что модель не просто копировала немногие оригинальные фото, а генерировала реалистичные новые сочетания.

Встраивание синтетических животных в реалистичные сцены донного рельефа

Поскольку детекторам объектов нужны и животные, и их окружение, второй этап сосредоточился на фонах и компоновке. Здесь команда использовала сопутствующую систему управления, которая направляет диффузионную модель с помощью простых масок. Эти маски указывали, где и какого размера должно появиться каждое синтетическое животное, основываясь на диапазонах размеров, наблюдаемых в реальных данных. Модель затем генерировала фоны дна с соответствующими узорами осадка, камней и конкреций, плавно внедряя передние планы на место и сохраняя согласованность освещения и цвета. Ключевым моментом было то, что каждая маска также формировала автоматическую ограничивающую рамку (bounding box), обеспечивая готовые метки. После отбраковки бракованных результатов итоговый синтетический набор содержал по 200 качественных примеров для каждого редкого класса, которые смешали с оригинальными обучающими фотографиями.

Figure 2. Пошаговый процесс: синтетические редкие животные создаются, располагаются на фонах донных снимков и повышают точность детекторов
Figure 2. Пошаговый процесс: синтетические редкие животные создаются, располагаются на фонах донных снимков и повышают точность детекторов

Насколько помогли дополнительные изображения?

Улучшенный датасет использовали для обучения современной сети обнаружения, помечающей животных на кадре. Как на наборе с буксируемой камерой, так и на наборе со свободно плавающим роботом добавление синтетических изображений повысило основные показатели точности по сравнению с обучением только на реальных фото. Прирост был особенно заметен для самых редких групп: например, точность для осьминогов и бриозоев в одном из наборов улучшилась более чем на 20 процентных пунктов, а схожие улучшения для бриозоев и гидрозоев наблюдались в другом. Метод также показал преимущество перед стандартными приёмами, такими как случайные обрезки, сдвиги цвета и композитные вставки. Детальный анализ ошибок показал, что наибольший вклад далло уменьшение числа ошибок в различении видов, а не точности размещения рамок.

Ограничения, компромиссы и направления для будущих исследований

Польза была неравномерной. Синтетические данные помогали меньше для более размытых и удалённых снимков свободно плавающего робота, где даже реальные животные труднее различимы. При тестировании моделей, обученных на данных одной камерной системы, на изображениях другой, производительность заметно падала, что показывает: различия в освещении и расстоянии до объекта по-прежнему представляют серьёзную проблему. Авторы также заметили, что больше синтетики не всегда лучше: производительность росла до определённого предела и затем выравнивалась, что указывает на то, что после насыщения разнообразия дополнительные изображения вносят в основном избыточность. Они предлагают в будущей работе сосредоточиться на более точной локализации, лучшей обработке очень мелких и нечетких целей и более эффективных генеративных моделях, охватывающих сразу множество видов.

Что это значит для мониторинга глубокого моря

Проще говоря, исследование показывает, что аккуратно сгенерированные фальшивые изображения могут заметно улучшить работу автоматических систем по обнаружению редких глубоководных животных на реальных съёмках. Обучая детекторы тому, как редкие виды могут выглядеть в разных реалистичных условиях, подход снижает число пропущенных наблюдений, не ухудшая при этом результаты для распространённых животных. Хотя это не отменяет необходимости реальных экспедиций и экспертной проверки, метод предлагает практичный способ эффективнее использовать ограниченные данные, поддерживая более надёжный мониторинг уязвимых глубоководных местообитаний по мере расширения промышленной деятельности на большие глубины.

Цитирование: Deng, J., Duan, M., Wei, D. et al. Improving rare-class detection in deep-sea imagery via generative augmentation with stable diffusion. Sci Rep 16, 15910 (2026). https://doi.org/10.1038/s41598-026-45732-6

Ключевые слова: глубоководная съёмка, увеличение данных, stable diffusion, обнаружение редких видов, подводная робототехника