Clear Sky Science · pl

Integracja uproszczonego Swin-T z zmodyfikowanym EFS-Net do segmentacji rurociągów podwodnych kierowanej uwagą w złożonych środowiskach podwodnych

2026-02-02 · Powrót do spisu

Dlaczego obserwacja dna morskiego ma znaczenie

Ukryte pod falami, rozległe sieci rur przenoszą ropę, gaz i kable energetyczne, od których zależą współczesne społeczeństwa. Jeśli te podwodne rurociągi pękną, skorodują lub przesuną się, skutkiem mogą być kosztowne przerwy w działaniu i poważne zanieczyszczenia. Obecnie dużą część prac inspekcyjnych wykonują operatorzy, którzy przeglądają godziny mętnego materiału wideo z robotów podwodnych. W artykule przedstawiono nowy system sztucznej inteligencji (AI), który potrafi automatycznie wyodrębniać rurociągi ze trudnych podwodnych obrazów, nawet gdy są słabo widoczne, zasnute „śniegiem morskim” albo częściowo zakryte piaskiem. Ten krok w kierunku niezawodnej, zautomatyzowanej inspekcji może uczynić eksploatację infrastruktury morskiej bezpieczniejszą i tańszą w utrzymaniu.

Jasne widzenie w mętnym świecie

Obraz podwodny jest z natury trudny do interpretacji przez komputery. Światło gaśnie szybko wraz z głębokością, barwy przesuwają się w kierunku zieleni i błękitu, a unoszące się cząstki tworzą mgłę i plamki przypominające śnieg. Klasyczne techniki przetwarzania obrazu, które opierają się na ostrych krawędziach i wyraźnym kontraście, zawodzą, gdy rurociąg jest przykryty piaskiem, zasłonięty roślinnością lub zamazany przez mgłę. Uczenie głębokie poprawiło sytuację i kilka popularnych sieci neuronowych już potrafi wykrywać rury w wybranych zbiorach danych. Jednak te systemy zwykle wyspecjalizowane są w określonych warunkach wody lub konfiguracjach kamer. Gdy spotykają nowe środowisko—inną wodę, oświetlenie lub tło—their dokładność gwałtownie spada. Głównym wyzwaniem jest zbudowanie modelu, który będzie jednocześnie dokładny i elastyczny, a przy tym wystarczająco wydajny, by działać w praktycznych systemach inspekcyjnych.

Dwu-mózgowe podejście do obrazów podwodnych

Autorzy rozwiązują to, tworząc hybrydową architekturę AI łączącą dwa bardzo różne „sposoby widzenia”. Jedna gałąź, oparta na uproszczonej wersji Swin Transformera, działa jak obserwator o szerokim polu widzenia. Skanuje cały kadr, by zrozumieć wzorce w dużej skali, takie jak ogólny przebieg rury na dnie morskim. Druga gałąź, zaadaptowana z modelu nazwanego EFS-Net i wspierana przez szkielet EfficientNet, pełni rolę szkła powiększającego. Koncentruje się na drobnych detalach—krawędziach, teksturach i cienkich strukturach, które wskazują, gdzie zaczyna się rurociąg, a gdzie kończy piasek lub roślinność. Obie gałęzie przetwarzają te same zmienione rozmiarowo obrazy i zamieniają je na wewnętrzne mapy cech opisujące, co sieć uznaje za znaczące struktury w poszczególnych obszarach obrazu.

Pozwól uwadze zdecydować, co jest ważne

Proste złączenie wyjść obu gałęzi stworzyłoby natłok redundantnych informacji. Zamiast tego model używa mechanizmu „uwagi”, by decydować, piksel po pikselu, które szczegóły warto wziąć pod uwagę. Tróghłowicowy moduł cross-attention porównuje cechy z gałęzi skupionej na detalach z cechami z gałęzi kontekstowej. W istocie gałąź detali zadaje ukierunkowane pytania—„Czy ta krawędź jest częścią rury?”—podczas gdy gałąź kontekstu dostarcza globalnych wskazówek—„Czy linia w tym położeniu i kierunku ma sens jako część rury?” Dodatkowy krok rafinacji, zwany CBAM, dodatkowo wzmacnia sygnał z prawdopodobnych obszarów rurociągu i tłumi szumy tła, takie jak skały, glony czy zawieszone cząstki. Następnie sieć dekodera stopniowo odbudowuje maskę w pełnym rozmiarze, oznaczając każdy piksel jako rurociąg lub nie.

Testowanie systemu

Aby ocenić, czy ten projekt działa w praktyce, badacze zebrali duży i wymagający zbiór danych nazwany HOMOMO. Zawiera on ponad 120 000 kolorowych zdjęć prawdziwych rurociągów dennych wykonanych wzdłuż 1,2 kilometra rury w zróżnicowanych i często niesprzyjających warunkach: słabe oświetlenie, mżawka morska, unoszący się „śnieg”, zawirowania piasku i gęsty wzrost roślin. Trenowali swój model na części tej kolekcji, a następnie porównali go z powszechnie używanymi systemami, takimi jak UNet, DeepLab, SwinUNet, TransUNet, Mask2Former oraz kilkoma wersjami detektora obiektów YOLO. Na HOMOMO ich model hybrydowy poprawnie segmentował piksele rurociągu z wartością mean intersection-over-union około 98%, co jest istotnie wyższe niż najlepsza metoda konkurencyjna. Co równie ważne, podczas testów—bez ponownego trenowania—na dwóch bardzo różnych źródłach obrazu, syntetycznym zbiorze Roboflow i rzeczywistych nagraniach z YouTube, model wciąż dawał silne wyniki, pokazując, że radzi sobie z nowymi kamerami i warunkami wodnymi.

Co to oznacza dla prawdziwego oceanu

Dla czytelników niebędących specjalistami wniosek jest taki, że ten system AI potrafi niezawodnie wyrysować kontury rurociągów podwodnych w klatkach wideo, które są zbyt zaszumione i niespójne dla metod konwencjonalnych. Łącząc globalny obraz sceny z czujnym spojrzeniem na krawędzie i tekstury oraz używając mechanizmu uwagi do scalania tych perspektyw, model osiąga wysoką dokładność bez potrzeby ogromnej mocy obliczeniowej. W praktyce takie narzędzie mogłoby pomóc autonomicznym robotom w ciągłym monitorowaniu długich odcinków infrastruktury podmorskiej, sygnalizując możliwe uszkodzenia lub zasypanie do przeglądu przez ludzi. Choć nadal ma trudności z rurami ekstremalnie cienkimi lub całkowicie ukrytymi, podejście to stanowi ważny krok w kierunku bezpieczniejszej, bardziej zautomatyzowanej inspekcji ukrytej sieci, która podtrzymuje współczesne systemy energetyczne i komunikacyjne.

Cytowanie: Hosseini, N., Mohanna, F. & Moghimi, M.K. Integrating simplified Swin-T with modified EFS-Net for attention-guided underwater pipelines segmentation in complex underwater environments. Sci Rep 16, 6987 (2026). https://doi.org/10.1038/s41598-026-38081-x

Słowa kluczowe: rurociągi podwodne, segmentacja obrazu, uczenie głębokie, inspekcja morska, sieci transformatorowe