Clear Sky Science · pl

Algorytm przewidywania obrazu dla mglistych scen drogowych oparty na udoskonalonym transformerze

2026-02-28 · Powrót do spisu

Dlaczego widzenie przez mgłę ma znaczenie

Jazda przez gęstą mgłę może przypominać wpatrywanie się w białą ścianę. Zarówno dla ludzi, jak i pojazdów autonomicznych słaba widoczność zamienia zwykłe drogi w miejsca niebezpieczne. W tym badaniu zaproponowano nowy sposób, by komputery „widziały” wyraźniej przez mgłę, przekształcając rozmyte sceny uliczne w ostrzejsze, bardziej informacyjne obrazy. Celem nie są jedynie ładniejsze zdjęcia, lecz bezpieczniejsze decyzje systemów autonomicznych, które muszą wykrywać pasy, samochody i przeszkody w różnych warunkach pogodowych.

Od rozmytych dróg do wyraźniejszych widoków

Mgła pogarsza jakość obrazu przez rozpraszanie światła: spłukuje kolory, zaokrągla krawędzie i zaciera odległe obiekty. Tradycyjne podejścia próbują odwrócić ten efekt, opierając się na ręcznie opracowanych zasadach dotyczących zachowania mgły lub na uniwersalnym wzmacnianiu kontrastu. Nowe metody głębokiego uczenia robią postęp, ale wiele z nich ma trudności z uchwyceniem długozasięgowych wzorców w scenie — na przykład relacji między odległymi oznaczeniami pasa a obiektami bliskimi kamerze. Często są też ciężkie i wolne, co stanowi problem dla samochodów, które muszą reagować w czasie rzeczywistym.

Inteligentniejszy silnik widzenia dla mglistych dróg

Aby sprostać tym ograniczeniom, autorzy zaprojektowali wyspecjalizowany system wizyjny oparty na nowoczesnej architekturze AI znanej jako Transformer — pierwotnie stworzonej do rozumienia języka, a teraz dostosowanej do obrazów. Ich sieć przyjmuje pojedyncze, zamglone zdjęcie drogi i przewiduje jego klarowniejszą wersję wraz z oszacowaniem zasięgu widoczności. Obraz jest dzielony na nachodzące na siebie fragmenty o kilku rozmiarach, co pozwala skupić się zarówno na drobnych szczegółach, takich jak krawędzie pasa i znaki drogowe, jak i na szerszym układzie drogi. Fragmenty te są następnie przetwarzane w wielu równoległych gałęziach dostrojonych do różnych gęstości mgły, tak aby lekka mgiełka i gęste zamglenie były obsługiwane odmiennie, zamiast przechodzić przez ten sam jednolity proces.

Podążanie za strukturą zamiast za szumem

W tym systemie kluczową innowacją jest uproszczony mechanizm uwagi, który pozwala sieci oceniać relacje między odległymi częściami obrazu bez eksplozji obliczeń. Autorzy przybliżają kosztowną wewnętrzną kalkulację tak, by zachowywała się podobnie, lecz działała szybciej, zamieniając powolny, kwadratowy etap w dużo wydajniejszy. Dzięki temu model może koncentrować się na istotnych strukturach — takich jak wyrównanie oznakowań pasa i kontury pojazdów — podczas gdy ignoruje dużą część losowego szumu mgły. Dodatkowe moduły uwagi precyzują, które kanały cech są najważniejsze i które regiony przestrzenne zasługują na uwagę, dalej wyostrzając istotne krawędzie i kształty krytyczne dla nawigacji.

Testy na rzeczywistej i syntetycznej mgle

Naukowcy zgromadzili trzy zbiory scen drogowych łączące komputerowo generowaną mgłę z rzeczywistymi zdjęciami mglistych dróg z miast i autostrad, obejmującymi mgłę lekką, średnią i gęstą. Szkolili swój system, by generował zarówno obraz po usunięciu mgły, jak i oszacowanie widoczności, a następnie porównali go z mocną metodą opartą na fizyce i kilkoma wiodącymi modelami dehazingowymi. Ich podejście w wielu przypadkach odtwarza więcej szczegółów drogi — szczególnie odległe oznakowania pasa i kontury pojazdów — przy jednoczesnym użyciu znacznie mniejszej liczby parametrów niż niektóre popularne alternatywy. Co ważne, działa wystarczająco szybko w czasie rzeczywistym na sprzęcie graficznym podobnym do tego, które może być zainstalowane we współczesnym samochodzie, utrzymując dziesiątki klatek na sekundę nawet przy wyższych rozdzielczościach.

Wyraźniejsze obrazy dla bezpieczniejszych decyzji

Mówiąc prościej, praca ta oferuje lekkiego „cyfrowego odmgławiacza”, który pomaga systemom automatycznego prowadzenia dostrzegać więcej z drogi w trudnych warunkach pogodowych. Choć nie jest doskonały — przesunięcia kolorów i artefakty mogą nadal pojawiać się w bardzo gęstych lub złożonych scenach — osiąga praktyczny kompromis między jakością obrazu a szybkością. Poprzez łączenie widoków wieloskalowych, wyspecjalizowanych gałęzi dla różnych poziomów mgły i wydajnego mechanizmu uwagi, metoda dostarcza wyraźniejsze i bardziej informacyjne obrazy drogowe, nie przeciążając jednocześnie komputerów pokładowych. To obiecujący krok w kierunku bezpieczniejszej jazdy autonomicznej w mglistych, ograniczających widoczność warunkach, które stanowią wyzwanie zarówno dla ludzi, jak i maszyn.

Cytowanie: Zhang, BT., Zhao, AY. & Xiong, P. Image prediction algorithm for foggy road scenes based on improved transformer. Sci Rep 16, 9579 (2026). https://doi.org/10.1038/s41598-025-25974-6

Słowa kluczowe: widzenie w mglistych warunkach drogowych, usuwanie mgły z obrazu, jazda autonomiczna, obrazowanie oparte na transformerze, percepcja w niekorzystnej pogodzie