Clear Sky Science · pl

Sieć fuzji uzupełniających częstotliwości przestrzennych do usuwania mgły z modułami wieloskalowymi i uwagowymi

2026-04-09 · Powrót do spisu

Dlaczego oczyszczanie zamglonych zdjęć ma znaczenie

Każdy, kto próbował fotografować mglistą panoramę miasta lub zadymioną autostradę, wie, jak mgła wypłukuje kolory i rozmywa detale. Poza pamiątkowymi zdjęciami utrata przejrzystości wpływa też na systemy bezpieczeństwa w samochodach, monitorowanie środowiska oraz zdalne obserwacje z samolotów i satelitów. W artykule zaproponowano nowy sposób cyfrowego usuwania mgły z pojedynczego obrazu, mający na celu odzyskanie ostrego, naturalnie wyglądającego widoku, użytecznego zarówno dla ludzi, jak i maszyn.

Od prostych sztuczek do uczenia się na danych

Początkowe metody usuwania mgły opierały się na sprytnych regułach ręcznie zaprojektowanych, takich jak założenie, że przynajmniej niektóre części sceny zawierają bardzo ciemne piksele lub że kolory podążają określonymi wzorcami. Podejścia te sprawdzają się w prostych przypadkach, ale mają trudności, gdy oświetlenie, pogoda lub układ sceny stają się złożone. Wraz z rozwojem uczenia głębokiego badacze zaczęli trenować sieci neuronowe, które uczą się różnic między czystymi a zamglonymi obrazami, co pozwala bezpośrednio rekonstruować czystą wersję na podstawie przykładów. Większość metod opartych na uczeniu działa jednak wyłącznie w zwykłej przestrzeni obrazu, modyfikując piksele i lokalne wzorce, bez pełnego wykorzystania tego, jak mgła zmienia obraz, gdy spojrzy się na niego jako mieszaninę niskich i wysokich częstotliwości wizualnych.

Figure 1. Jak sieć o podwójnym widoku przekształca pojedyncze zamglone zdjęcie w wyraźniejszy, bardziej naturalnie wyglądający obraz.

Patrząc na mgłę z dwóch perspektyw

Autorzy zwracają uwagę, że mgła nie tylko równomiernie przyciemnia obraz. Po przekształceniu obrazu do przestrzeni częstotliwości, która oddziela szerokie, gładkie obszary od drobnych tekstur i krawędzi, zamglone zdjęcia wykazują wyraźną utratę średnich i wysokich częstotliwości oraz nagromadzenie energii niskich częstotliwości. Mówiąc prościej, drobne detale, takie jak liście czy krawędzie budynków, bledną, podczas gdy ogólna jasność i zabarwienie stają się dominujące. Standardowe metody operujące jedynie na sąsiedztwach pikseli mają problem z bezpośrednią korektą tej nierównowagi częstotliwości. Artykuł argumentuje, że lepszy system odmgławiania powinien działać jednocześnie w obu przestrzeniach: w codziennym widoku pikselowym oraz w widoku częstotliwościowym, który uwypukla utracone detale.

Sieć łącząca kształty i tekstury

Aby zrealizować ten pomysł, autorzy zaprojektowali SFC-Net, sieć neuronową, która łączy informacje przestrzenne i częstotliwościowe na każdym istotnym etapie. Jej podstawowy blok wzmacniania cech, zwany modułem wieloskalowym częstotliwościowo-przestrzennym, dzieli cechy na kilka gałęzi. Jedna gałąź koncentruje się na szerokich wzorcach używając średnich statystyk, inna podkreśla silne odpowiedzi za pomocą wartości maksymalnych, a trzecia analizuje obraz w przestrzeni częstotliwości, aby uchwycić tekstury i strukturę, które łatwo ulegają osłabieniu przez mgłę. Te gałęzie są następnie łączone, dzięki czemu sieć może jednocześnie rozważać, co powinno być jasne, co ostre, i gdzie trzeba przywrócić subtelne detale, prowadząc do czystszych i bardziej realistycznych obrazów po odmgławianiu.

Figure 2. Jak rozdzielenie gładkich obszarów i drobnych tekstur pomaga sieci usunąć mgłę i odzyskać utracone detale.

Ukierunkowana uwaga na najbardziej użyteczne wskazówki

Ponad ekstrakcją cech, sieć wykorzystuje uzupełniający moduł uwagi częstotliwościowo-przestrzennej, aby zdecydować, które regiony i jakie rodzaje informacji zasługują na największe skupienie. Moduł ten najpierw buduje oddzielne mapy uwagi nad lokalizacjami obrazu i nad kanałami, a następnie przekazuje te wzmocnione cechy przez przekształcenie częstotliwościowe, co pozwala systemowi uwypuklić komponenty częstotliwościowe istotne dla usuwania mgły, jednocześnie przytłumiając mniej użyteczne. Adaptacyjna bramka bilansuje te wkłady, dzięki czemu sieć może traktować różne sceny inaczej — na przykład przykładać większą wagę do drobnych tekstur w zalesionej scenerii niż na gładkim niebie. Dodatkowe bloki resztkowe i starannie zaprojektowana głowica do ponownej próbkowania pomagają zachować detale i unikać sztucznych wzorców podczas rekonstrukcji końcowego czystego obrazu.

Jak metoda sprawdza się w praktyce

Badacze trenowali i testowali SFC-Net na szeroko stosowanych syntetycznych i rzeczywistych zbiorach danych z mgłą. Oceniali jakość obrazu za pomocą standardowych miar sygnału do szumu, podobieństwa strukturalnego oraz bezreferencyjnego wskaźnika, który estymuje, jak naturalnie wygląda obraz bez potrzeby posiadania czystej wersji jako odniesienia. W testach wewnętrznych i zewnętrznych SFC-Net dorównuje lub przewyższa niedawne zaawansowane metody odmgławiania, szczególnie poprawiając ostrość i wierność kolorów w scenach zewnętrznych. Model dobrze radzi sobie również z rzeczywistymi fotografiami i na niezależnych benchmarkach symulujących prawdziwą mgłę, a badania ablaacyjne pokazują, że każdy z nowych modułów wnosi istotny wkład w końcową wydajność, a nie tylko zwiększa rozmiar modelu.

Jaśniejszy widok dzięki sprytniejszej fuzji

Mówiąc prostymi słowami, praca ta pokazuje, że oczyszczanie zamglonych obrazów zyskuje na patrzeniu na nie na dwa uzupełniające się sposoby: jako zwykłe zdjęcia oraz jako wzorce gładkich obszarów i drobnych detali. Budując sieć, która łączy te widoki i uczy się, gdzie skupić wysiłki, autorzy osiągają ostrzejsze, bardziej naturalnie wyglądające rezultaty niż wiele istniejących systemów. Podejście to może poprawić widoczność w autonomicznym prowadzeniu, nadzorze i obserwacji środowiska, oferując jaśniejsze cyfrowe okna na sceny, które w innym razie byłyby matowe i wypłukane przez mgłę.

Cytowanie: Yan, C., Liu, G. Spatial-frequency complementary fusion network for dehazing with multi-scale and attention modules. Sci Rep 16, 16412 (2026). https://doi.org/10.1038/s41598-026-47027-2

Słowa kluczowe: usuwanie mgły z obrazu, uczenie głębokie, widzenie komputerowe, poprawa obrazu, domena częstotliwości