Clear Sky Science · pl

Baza obrazów pod wodą do segmentacji instancji ryb uwzględniającej zacienienia

2026-02-26 · Powrót do spisu

Dlaczego liczenie ryb pod wodą jest trudne

Hodowle ryb przekształcają się w zaawansowane technologicznie zakłady, w których kamery i algorytmy cicho nadzorują tysiące osobników. Jednak zaskakująco podstawowe zadanie — po prostu odróżnienie jednej ryby od drugiej w zatłoczonym zbiorniku — okazuje się bardzo trudne. Ryby pływają nad i pod sobą, zasłaniają widok kamery i pojawiają się jedynie fragmentarycznie na krawędziach obrazu. W artykule przedstawiono nowy zbiór zdjęć podwodnych, Fish Occlusion Dataset (FOD), stworzony, by pomóc komputerom rozpoznawać poszczególne ryby nawet gdy są częściowo ukryte. Ta umiejętność jest kluczowa do automatyzacji dokarmiania, kontroli zdrowia i ocen stanu obsady we współczesnej akwakulturze.

Nowa biblioteka obrazów dla zatłoczonych zbiorników

Rdzeń tego projektu stanowi duży, starannie dobrany zestaw zdjęć podwodnych karasia, popularnej ryby hodowlanej. Badacze zarejestrowali 66 ryb w zbiorniku za pomocą specjalnej kamery podwodnej zamocowanej nad wodą, a następnie wydzielili klatki ze nagrań wideo. Po usunięciu niemal-identycznych obrazów otrzymali ponad tysiąc zdjęć pojedynczych ryb oraz setki scen z wieloma rybami. Każda widoczna ryba została obrysowana ręcznie na poziomie pojedynczych pikseli, dając komputerom dostęp do precyzyjnych kształtów zamiast przybliżonych pudełek. W sumie FOD zawiera 14 376 obrazów i 144 894 skrupulatnie opisane ryby, co czyni go jednym z najbardziej szczegółowych publicznych zasobów tego typu.

Nauczanie komputerów widzenia przez nakładanie

Aby rzeczywiście sprawdzić, jak algorytmy radzą sobie z tłokiem, zespół potrzebował wielu przykładów, w których ryby nachodzą na siebie. Ręczne rysowanie szczegółowych konturów w takich scenach jest niezwykle czasochłonne, więc zastosowali sprytne przyspieszenie. Najpierw wygenerowali wysokiej jakości maski dla pojedynczych ryb. Następnie cyfrowo wycięli te ryby i wkleili je na obrazy tła w nowych układach. Poprzez obracanie, skalowanie i przesuwanie ryb oraz ograniczanie stopnia ich wzajemnego zasłaniania stworzyli 13 000 syntetycznych obrazów przedstawiających realistyczne, gęste ławice z kontrolowanym stopniem nachodzenia. Gładkie mieszanie na krawędziach sprawia, że kompozyty wyglądają naturalnie. Ostateczny zestaw łączy sceny oryginalne i syntetyczne, dostarczając zarówno różnorodności, jak i realizmu.

Ocena stopnia ukrycia każdej ryby

Nie każde zacienienie jest takie samo: ryba w pełni widoczna jest znacznie łatwiejsza do rozpoznania niż ta, która pojawia się jedynie jako kilka rozrzuconych fragmentów. Aby to uchwycić, autorzy podzielili każdą rybę na trzy proste grupy. „Cała” ryba jest całkowicie widoczna, „część” oznacza rybę częściowo zasłoniętą przez inne, a „fragment” dotyczy ryb widocznych jedynie w oddzielnych kawałkach. Ten dodatkowy poziom etykietowania pozwala badaczom dokładnie zobaczyć, gdzie ich algorytmy mają trudności. Analiza danych wykazała, że większość ryb w zbiorze należy do kategorii „część”, co odzwierciedla rzeczywiste warunki w zatłoczonych zbiornikach. Pokazano również, że tradycyjne podsumowujące miary mogą maskować porażki na bardzo małych fragmentach, więc raportowanie wyników według poziomu zacienienia daje jaśniejszy obraz mocnych i słabych stron modeli.

Jak radzą sobie obecne algorytmy

Aby zademonstrować możliwości FOD, zespół przetestował osiem popularnych metod segmentacji obrazów, w tym zarówno długo stosowane modele oparte na detekcji, jak i nowsze konstrukcje „bez propozycji”, które działają bardziej bezpośrednio na obszarach obrazu. Wszystkie osiągnęły wysoką średnią dokładność na tym zbiorze, a jedna metoda, Mask2Former, wyróżniła się generowaniem najostrzejszych konturów, szczególnie gdy ryby nachodziły na siebie. Mimo to nawet najlepsze modele słabiały, gdy ryby były rozbite na fragmenty — wydajność w tych przypadkach wyraźnie spadała w porównaniu z rybami w pełni widocznymi. Dodatkowe doświadczenie pokazało, dlaczego mieszanka oryginalnych i syntetycznych danych w FOD ma znaczenie: trenowanie wyłącznie na realnych scenach prowadziło do słabego radzenia sobie z zacienieniami, natomiast trenowanie tylko na syntetycznych obrazach pomijało pewne niuanse rzeczywistych zdjęć. Połączenie obu rodzajów danych dało najodporniejsze modele.

Co to oznacza dla mądrzejszych hodowli ryb

W praktyce nowy zbiór danych oferuje pole doświadczalne dla systemów widzenia komputerowego, które muszą działać w rzeczywistych hodowlach ryb, gdzie jasne widoki są raczej wyjątkiem niż regułą. Poprzez celowe skupienie się na nakładających się rybach i udostępnienie zarówno obrazów, jak i kodu użytego do ich stworzenia, autorzy dostarczają podstawę dla bardziej niezawodnych narzędzi monitorujących uwzględniających zacienienia. Choć obecny zbiór obejmuje tylko jeden gatunek w kontrolowanym zbiorniku, tę samą metodę można rozszerzyć na inne ryby i trudniejsze środowiska. W miarę upowszechniania się tych technik hodowcy ryb mogli by uzyskać ciągłe, precyzyjne informacje o liczebności obsady, zachowaniu i wzroście — co pomagałoby efektywniej stosować paszę, wcześnie wykrywać problemy zdrowotne i prowadzić bardziej zrównoważone gospodarstwa.

Cytowanie: Wang, X., Yu, H., Zhang, C. et al. An underwater image dataset for occlusion-aware fish instance segmentation. Sci Data 13, 526 (2026). https://doi.org/10.1038/s41597-026-06898-w

Słowa kluczowe: obrazowanie podwodne, hodowla ryb, widzenie komputerowe, segmentacja instancji, zacienienie