Clear Sky Science · pl

Poprawa wykrywania rzadkich klas na obrazach głębinowych za pomocą augmentacji generatywnej ze stable diffusion

2026-04-03 · Powrót do spisu

Dlaczego rzadkie życie głębinowe trudno dostrzec

Daleko poniżej powierzchni oceanu duże zwierzęta żyjące na dnie morskich pomagają utrzymywać zdrowie ekosystemów głębinowych. Te organizmy znajdują się też w centrum rosnącego zainteresowania eksploatacją dna morskiego. Naukowcy chcą, aby zautomatyzowane systemy kamer potrafiły niezawodnie je znajdować i liczyć, ale jest jeden problem: wiele gatunków widuje się tylko kilka razy. W tym badaniu analizowano, jak nowoczesna sztuczna inteligencja generująca obrazy może stworzyć realistyczne dodatkowe przykłady rzadkich gatunków, pomagając oprogramowaniu do wykrywania stać się dokładniejszym bez wysyłania większej liczby statków na morze.

Robienie zdjęć w trudno dostępnym świecie

Zespół pracował z dwiema dużymi kolekcjami fotografii dna morskiego wykonanych na polu guzków polimetalicznych na zachodnim Pacyfiku. Jeden zestaw pochodził z układu kamer holowanych na kablu kilka metrów nad dnem, a drugi z wolnopływającego robota. Razem obrazy obejmowały 16 typów zwierząt, w tym jeżowce, gąbki, koralowce, rozgwiazdy, iglicznia i ośmiornice. Jak w wielu zbiorach przyrodniczych, rozkład liczebności był wyraźnie nierówny: kilka pospolitych gatunków pojawiało się często, podczas gdy kilka grup miało mniej niż 50 oznaczonych przykładów. Ponieważ większość zwierząt zajmuje mniej niż jedną dziesiątą procenta każdego obrazu, a obsługa kamer na głębokościach powyżej 4 000 metrów jest kosztowna, samo zebranie bardziej zrównoważonych danych nie jest praktyczne.

Figure 1. Obrazy dna morskiego generowane przez SI równoważą występowanie rzadkich i pospolitych gatunków, poprawiając wykrywanie zwierząt głębinowych

Nauczanie generatora obrazów o rzadkim życiu dna morskiego

Aby przeciwdziałać tej nierównowadze, badacze zwrócili się ku popularnej metodzie generowania obrazów znanej jako model dyfuzyjny. Rozpoczęli od potężnej, ogólnego przeznaczenia wersji trenowanej na scenach codziennych, a następnie delikatnie dostosowali ją do obrazów głębinowych, używając lekkiej metody strojenia. Najpierw wycięli 175 wyraźnych przykładów siedmiu rzadkich grup zwierząt, takich jak mszaki, niektóre korale i ośmiornice, i użyli ich do trenowania modelu w tworzeniu przekonujących nowych wycinków pierwszego planu dla każdego typu. Proste tekstowe prompt’y były modyfikowane, aby zachęcić do zmian w pozie, kolorze, oświetleniu i kącie widzenia, tak aby model nie kopiował tylko kilku oryginalnych zdjęć, lecz eksplorował realistyczne nowe kombinacje.

Wtapianie syntetycznych zwierząt w realistyczne sceny dna morskiego

Ponieważ detektory obiektów potrzebują zarówno zwierząt, jak i ich otoczenia, drugi etap skupił się na tłach i układzie sceny. Tutaj zespół użył towarzyszącego systemu kontroli, który kieruje modelem dyfuzyjnym za pomocą prostych obrazów-mask. Maski te określały, gdzie i jak duże powinny być poszczególne syntetyczne zwierzęta, na podstawie zakresów wielkości obserwowanych w rzeczywistych danych. Model następnie generował tła dna morskiego z odpowiadającymi wzorami osadów, skał i guzków, płynnie wtapiając obiekty pierwszego planu przy zachowaniu spójności oświetlenia i kolorystyki. Co istotne, każda maska dostarczała również automatycznego pola ograniczającego (bounding box), zapewniając gotowe etykiety. Po odfiltrowaniu wadliwych wyników ostateczny zbiór syntetyczny zawierał 200 wysokiej jakości przykładów dla każdej rzadkiej klasy, które wymieszano z oryginalnymi zdjęciami treningowymi.

Figure 2. Proces krok po kroku, w którym syntetyczne rzadkie zwierzęta są tworzone, umieszczane na tle dna morskiego i zwiększają dokładność detektora

O ile pomogły dodatkowe obrazy?

Ulepszony zestaw danych posłużył do trenowania nowoczesnej sieci detekcyjnej, która wykrywa i etykietuje zwierzęta w każdej klatce. Zarówno w zestawach z kamery holowanej, jak i wolnopływającej, dodanie obrazów syntetycznych podniosło główne wskaźniki dokładności w porównaniu do treningu tylko na prawdziwych zdjęciach. Zyski były najbardziej wyraźne dla najrzadszych grup: na przykład wydajność dla ośmiornic i mszaków poprawiła się o ponad 20 punktów procentowych w jednym zbiorze, a podobne wzrosty zaobserwowano dla mszaków i ukwiałów w drugim. Metoda wypadała też lepiej niż standardowe sztuczki, takie jak losowe przycinanie, przesunięcia kolorów czy kompozycje typu cut-and-paste. Szczegółowa analiza błędów wykazała, że największa poprawa wynikała ze zmniejszenia liczby pomyłek w rozróżnianiu gatunków, a nie z precyzji umieszczania ramek.

Ograniczenia, kompromisy i kierunki na przyszłość

Korzyści nie były jednak jednakowe. Dane syntetyczne pomagały mniej w przypadku rozmytych, bardziej odległych obrazów z wolnopływającego robota, gdzie nawet prawdziwe zwierzęta są trudniejsze do dostrzeżenia. Gdy modele trenowane na jednym systemie kamer testowano na drugim, wydajność spadała gwałtownie, co pokazuje, że różnice w oświetleniu i odległości widzenia wciąż stanowią poważne wyzwanie. Autorzy stwierdzili też, że większa ilość danych syntetycznych nie zawsze jest lepsza: wydajność rosła do pewnego punktu, po czym się stabilizowała, co sugeruje, że po nasyceniu różnorodności dodatkowe obrazy głównie zwiększają redundancję. Proponują dalsze prace nad precyzyjniejszą lokalizacją, lepszym radzeniem sobie z bardzo małymi, nieostrymi celami oraz bardziej wydajnymi modelami generatywnymi pokrywającymi wiele gatunków jednocześnie.

Co to oznacza dla obserwacji głębin

Mówiąc prosto, badanie pokazuje, że starannie wygenerowane fałszywe obrazy mogą sprawić, że systemy zautomatyzowane zauważalnie lepiej odnajdują rzadkie zwierzęta głębinowe na prawdziwych zdjęciach z badań. Ucząc detektory, jak mogą wyglądać nietypowe gatunki w wielu realistycznych warunkach, podejście to zmniejsza liczbę pominiętych obserwacji, nie pogarszając przy tym wyników dla gatunków pospolitych. Choć nie eliminuje potrzeby rzeczywistych ekspedycji czy kontroli ekspertów, oferuje praktyczny sposób na lepsze wykorzystanie ograniczonych danych, wspierając bardziej niezawodne monitorowanie wrażliwych siedlisk głębinowych w miarę, jak działalność przemysłowa przesuwa się w głębsze wody.

Cytowanie: Deng, J., Duan, M., Wei, D. et al. Improving rare-class detection in deep-sea imagery via generative augmentation with stable diffusion. Sci Rep 16, 15910 (2026). https://doi.org/10.1038/s41598-026-45732-6

Słowa kluczowe: obrazy głębinowe, augmentacja danych, stable diffusion, wykrywanie rzadkich gatunków, robotyka podwodna