Clear Sky Science · pl

Wykrywanie obiektów pod wodą w czasie rzeczywistym przez dynamikę w dziedzinie częstotliwości i przestrzennie wzbogaconą modulację cech

2026-03-24 · Powrót do spisu

Wyraźne widzenie pod falami

Świat pod powierzchnią morza ma kluczowe znaczenie dla bezpieczeństwa żywnościowego, energetyki i stanu środowiska, ale jest też trudny do obserwacji. Mętna woda, unoszące się cząstki i słabe światło potrafią utrudnić nawet proste zadania, takie jak liczenie rozgwiazd czy kontrola rur na dnie morskim. W tym badaniu przedstawiono nową metodę widzenia komputerowego, która pomaga robotom i kamerom podwodnym szybciej i dokładniej wykrywać małe morskie organizmy, nawet gdy obraz jest rozmyty lub zamglony.

Figure 1. Jak inteligentny, lekki model pomaga robotom w czasie rzeczywistym wyraźnie widzieć małe morskie stworzenia w mętnych scenach podwodnych.

Dlaczego widzenie pod wodą jest tak trudne

Woda inaczej załamuje i rozprasza światło niż powietrze, szczególnie czerwienie i żółcie, od których nasze oczy często uzyskują kontrast. Zdjęcia pod wodą zwykle wyglądają na niebiesko-zielone, zamglone i ubogie w detale, z jasnym rozpraszaniem światła od unoszących się cząstek. Małe zwierzęta, takie jak przegrzebki czy jeżowce, mogą zajmować tylko kilka pikseli i łatwo zlewać się z kamieniami, piaskiem czy wodorostami. Tradycyjne oprogramowanie do wykrywania obiektów, zaprojektowane pierwotnie dla ostrych obrazów lądowych, ma tendencję do pomijania takich słabych celów lub mylenia tła z rzeczywistymi organizmami. Jednocześnie roboty i czujniki podwodne zwykle działają na ograniczonym sprzęcie, więc metoda wykrywania musi być szybka i lekka, nie tylko dokładna.

Szybszy sposób na odczyt zaszumionych obrazów

Autorzy opierają się na niedawnej rodzinie modeli znanych jako Detection Transformers, które analizują obraz ucząc się relacji między wszystkimi jego częściami zamiast przesuwać po nim małe okno. Ich wariant zachowuje szybkość działania systemu RT-DETR, a jednocześnie wprowadza nowy kręgosłup sieciowy nazwany FasterFDBlock, lepiej przystosowany do zaszumionych scen podwodnych. Ten kręgosłup łączy trik zwany częściową konwolucją, która przetwarza tylko część kanałów obrazu, oszczędzając czas, z podejściem opartym na domenie częstotliwości. Pracując w dziedzinie częstotliwości, model potrafi rozróżnić losowe plamkowe szumy od ostrych krawędzi wyznaczających organizmy, tłumiąc pierwsze przy jednoczesnym zachowaniu drugich i zmniejszając zbędne obliczenia.

Utrzymanie małych stworzeń w centrum uwagi

Głębokie sieci widzenia często tracą drobne detale w miarę wielokrotnego zmniejszania obrazu, aby wydobyć wzorce wyższego poziomu. Może to być krytyczne przy wykrywaniu maleńkich przegrzebków czy rozgwiazd, które już są bliskie granicy widoczności. Aby temu przeciwdziałać, badacze przeprojektowali podstawowy blok uwagi w enkoderze, tworząc moduł nazwany AIFI-SEFN. Mówiąc prościej, jedna gałąź tego modułu patrzy na całą scenę używając mechanizmu uwagi, podczas gdy towarzysząca gałąź skupia się na lokalnej fakturze i kształcie. Agreguje i powiększa cechy w różnych skalach, wykorzystuje lekkie konwolucje do wychwytywania krawędzi i wzorców, a następnie reguluje, ile z tych detali zostanie przepuszczonych. Efekt to bogatsze połączenie kontekstu globalnego i wyraźnej lokalnej struktury, dzięki czemu małe organizmy wyróżniają się wyraźniej na tle skalistych den, piasku i roślin.

Figure 2. Jak filtrowanie w dziedzinie częstotliwości oraz wieloskalowe łączenie cech przekształcają zaszumione zdjęcie podwodne w wyraźnie wyróżnione organizmy morskie.

Mieszanie informacji w różnych skalach

Obrazy pod wodą rzadko zawierają obiekty tylko jednego rozmiaru; ten sam typ organizmu może pojawić się jako maleńka plamka w oddali lub duża plama na pierwszym planie. Proste sposoby łączenia informacji z płytkich i głębokich warstw, takie jak zwykłe dodawanie map cech, mogą zagubić drobne detale pod silnymi sygnałami wysokiego poziomu lub pozwolić, by płytkie szumy zdominowały scenę. Nowy moduł Multi-scale Feature Modulation rozwiązuje to, najpierw podsumowując, co każda warstwa „widzi” przez globalne poolowanie, a następnie przypisując adaptacyjne wagi cechom semantycznym i szczegółowym dla każdego kanału. Wagi te zawsze sumują się do jedności, więc model musi zdecydować, kanał po kanale, czy ważniejszy jest detal czy szeroki kontekst. Selektywne łączenie wzmacnia sygnały pochodzące od rzeczywistych celów i tłumi rozpraszacze, takie jak kamienie, piasek i cienie, nie dodając przy tym dużych kosztów obliczeniowych.

Jak dobrze działa metoda

Zespół przetestował swoje podejście na wymagającym publicznym zbiorze obrazów podwodnych, który obejmuje ogórki morskie, jeżowce, przegrzebki i rozgwiazdy, wiele z nich małych, nachodzących na siebie lub częściowo ukrytych. W porównaniu z oryginalnym modelem RT-DETR nowy system podniósł standardowy wynik wykrywania (mean Average Precision) z 70,4 do 72,1 procent, jednocześnie zmniejszając liczbę parametrów o ponad jedną czwartą i redukując ilość obliczeń o prawie jedną czwartą. Wciąż działa z prędkością ponad 70 klatek na sekundę, wystarczająco szybko do zastosowań w czasie rzeczywistym na typowym sprzęcie graficznym. Porównania wizualne map cieplnych i wyników wykrywania pokazują, że ulepszony model silniej koncentruje się na rzeczywistych zwierzętach, ignoruje mylące tekstury kamieni i wodorostów oraz odnajduje więcej małych lub o niskim kontraście celów w mętnych lub słabo oświetlonych scenach.

Co to oznacza dla prac podwodnych

Mówiąc prościej, to badanie pokazuje, jak nauczyć smukły, szybki model lepszego widzenia w jednym z najtrudniejszych środowisk wizualnych na Ziemi. Poprzez staranne kształtowanie sposobu, w jaki sieć traktuje zaszumione częstotliwości, lokalne detale i cechy na różnych skalach, autorzy sprawiają, że wykrywanie obiektów pod wodą staje się zarówno dokładniejsze, jak i bardziej wydajne. Taka równowaga jest ważna dla autonomicznych pojazdów podwodnych i innych systemów terenowych, które muszą podejmować szybkie, wiarygodne decyzje przy ograniczonej mocy obliczeniowej. W miarę jak metody te będą adaptowane do kolejnych zbiorów danych i platform wbudowanych, mogą pomóc naukowcom w monitorowaniu życia morskiego, inżynierom w inspekcji konstrukcji podwodnych oraz robotom w nawigacji po skomplikowanym terenie dna morskiego z większą pewnością.

Cytowanie: Cai, S., Zhu, A. Real-time underwater object detection via frequency-domain dynamics and spatially enhanced feature modulation. Sci Rep 16, 14884 (2026). https://doi.org/10.1038/s41598-026-44628-9

Słowa kluczowe: wykrywanie obiektów pod wodą, autonomiczne pojazdy podwodne, wzrok w czasie rzeczywistym, rozpoznawanie małych obiektów, cechy w dziedzinie częstotliwości