Clear Sky Science · pt
Melhorando a detecção de classes raras em imagens de águas profundas por meio de aumento generativo com stable diffusion
Por que a vida rara em águas profundas é difícil de detectar
Muito abaixo da superfície do oceano, grandes animais que vivem no leito marinho ajudam a manter os ecossistemas profundos saudáveis. Essas criaturas também estão diretamente na rota do crescente interesse pela mineração em águas profundas. Cientistas querem sistemas de câmeras automatizados que possam encontrá-las e contá-las de forma confiável, mas há um problema: muitas espécies são vistas apenas algumas vezes. Este estudo explora como técnicas modernas de IA geradora de imagens podem criar exemplos adicionais realistas de espécies raras, ajudando o software de detecção a ficar mais preciso sem precisar enviar mais navios ao mar.
Fotografando um mundo de difícil acesso
A equipe trabalhou com duas grandes coleções de fotografias do leito marinho feitas em um campo de nódulos polimetálicos no Pacífico ocidental. Um conjunto veio de um sistema de câmera preso por cabo rebocado a poucos metros do fundo, e o outro, de um robô livre. Juntas, as imagens cobriam 16 tipos de animais, incluindo pepinos-do-mar, esponjas, corais, estrelas-do-mar, frondes de mar (ofiúros) e polvos. Como em muitos conjuntos de dados de vida selvagem, as contagens eram altamente desequilibradas: alguns animais comuns apareciam com frequência, enquanto vários grupos tinham menos de 50 exemplos anotados. Como a maior parte dos animais ocupa menos de um décimo de porcento de cada imagem, e as câmeras são caras de operar em profundidades além de 4.000 metros, simplesmente coletar dados mais equilibrados não é prático.

Ensinando um gerador de imagens sobre a vida rara do leito marinho
Para enfrentar esse desbalanceamento, os pesquisadores recorreram a um método popular de geração de imagens conhecido como modelo de difusão. Eles partiram de uma versão poderosa de uso geral treinada em cenas do cotidiano e a adaptaram suavemente para imagens de águas profundas usando um método de ajuste leve. Primeiro, recortaram 175 exemplos claros de sete grupos de animais raros, como briozoários, certos corais e polvos, e usaram esses recortes para treinar o modelo a gerar novas imagens de primeiro plano convincentes de cada tipo. Prompts de texto simples foram variáveis para incentivar mudanças de pose, cor, iluminação e ângulo de visão, de modo que o modelo não copiasse apenas as poucas fotos originais, mas explorasse combinações realistas novas.
Misturando animais sintéticos em cenas realistas do leito marinho
Como os detectores de objetos precisam tanto dos animais quanto de seu entorno, uma segunda etapa se concentrou nos fundos e no layout. Aqui, a equipe usou um sistema de controle acompanhante que guia o modelo de difusão por meio de imagens de máscara simples. Essas máscaras especificavam onde e qual deveria ser o tamanho de cada animal sintético, com base em faixas de tamanho observadas nos dados reais. O modelo então gerou fundos do leito marinho com padrões de sedimento, rocha e nódulos correspondentes, integrando os animais de primeiro plano de forma suave enquanto mantinha a iluminação e a cor consistentes. Crucialmente, cada máscara também forneceu uma caixa delimitadora automática, oferecendo rótulos prontos. Após filtrar resultados com defeito, o conjunto sintético final continha 200 exemplos de alta qualidade para cada classe rara, que foram misturados com as fotos de treinamento originais.

Quanto as imagens extras ajudaram?
O conjunto de dados ampliado foi usado para treinar uma rede moderna de detecção que identifica e rotula animais em cada quadro. Em ambos os conjuntos — o do rebocador e o do robô livre —, adicionar imagens sintéticas elevou as principais métricas de precisão em comparação com o treinamento apenas com fotos reais. Os ganhos foram mais marcantes para os grupos mais raros: por exemplo, o desempenho para polvos e briozoários melhorou em mais de 20 pontos percentuais em um dos conjuntos, e aumentos semelhantes apareceram para briozoários e hidrozoários no outro. O método também teve desempenho superior a truques padrão como cortes aleatórios, alterações de cor e composições de recortar-e-colar. Análises detalhadas de erro mostraram que a maior melhora veio da redução de confusões entre espécies, em vez de um posicionamento muito mais preciso das caixas.
Limites, trade-offs e direções futuras
Os benefícios não foram uniformes. Dados sintéticos ajudaram menos nas imagens mais borradas e mais distantes do robô livre, onde mesmo animais reais são mais difíceis de ver. Quando modelos treinados em um sistema de câmera foram testados no outro, o desempenho caiu acentuadamente, mostrando que diferenças em iluminação e distância de visualização ainda representam um grande desafio. Os autores também constataram que mais dados sintéticos nem sempre são melhores: o desempenho melhorou até certo ponto e depois se estabilizou, sugerindo que, uma vez saturada a diversidade, imagens adicionais adicionam principalmente redundância. Eles propõem trabalhos futuros em localização mais precisa, melhor tratamento de alvos muito pequenos e desfocados, e modelos generativos mais eficientes que cubram muitas espécies ao mesmo tempo.
O que isso significa para monitorar o fundo do mar
Em termos simples, o estudo mostra que imagens falsas geradas com cuidado podem tornar sistemas automatizados visivelmente melhores em encontrar animais raros de águas profundas em fotos de levantamento reais. Ao ensinar detectores sobre como espécies incomuns podem aparecer em muitas condições realistas, essa abordagem reduz avistamentos perdidos sem prejudicar o desempenho em animais comuns. Embora não elimine a necessidade de expedições reais ou de revisões por especialistas, oferece uma maneira prática de esticar recursos de dados limitados, apoiando um monitoramento mais confiável de habitats frágeis de águas profundas à medida que a atividade industrial avança para águas mais profundas.
Citação: Deng, J., Duan, M., Wei, D. et al. Improving rare-class detection in deep-sea imagery via generative augmentation with stable diffusion. Sci Rep 16, 15910 (2026). https://doi.org/10.1038/s41598-026-45732-6
Palavras-chave: imagens de águas profundas, aumento de dados, stable diffusion, detecção de espécies raras, robótica subaquática