Clear Sky Science · pl

Fuzja obrazów w podczerwieni i widzialnych z mechanizmem podwójnej uwagi i adaptacyjną stratą interakcji

2026-04-03 · Powrót do spisu

Widzieć więcej niż jedna kamera

Wyobraź sobie jazdę w mglistą noc, gdy twoje oczy i kamera termiczna rejestrują różne fragmenty sceny. Jedna pokazuje gorące obiekty, takie jak ludzie czy samochody, druga ujawnia pasy ruchu, budynki i znaki. W tym badaniu opisano nowy sposób łączenia tych dwóch ujęć w jedno, wyraźniejsze zdjęcie, które może pomóc ludziom i maszynom lepiej postrzegać złożone środowiska zewnętrzne.

Figure 1. Scalenie widoków termicznych i z normalnej kamery w jedną jaśniejszą scenę dla lepszej widoczności na zewnątrz.

Dlaczego dwa rodzaje obrazów są ważne

Kamera światła widzialnego rejestruje świat podobnie jak nasze oczy — z ostrymi detalami i bogatymi teksturami. Kamery w podczerwieni rejestrują ciepło, dzięki czemu świetliste kształty ujawniają gorące silniki, ludzi lub zwierzęta nawet w ciemności, mgle czy przy olśnieniu. Każde ze źródeł jest samo w sobie niekompletne. Obrazy widzialne mogą tracić ważne obiekty w złych warunkach pogodowych lub przy słabym oświetleniu, podczas gdy obrazy termiczne często są rozmyte i pozbawione drobnych szczegółów. Połączenie ich w obraz zachowujący zarówno ostre tekstury, jak i wyraźne sygnały cieplne jest cenne w zadaniach takich jak nadzór, teledetekcja czy pojazdy autonomiczne.

Wyzwanie w łączeniu różnych widoków

Przez lata badacze tworzyli programy uczące się, jak fuzjować obrazy w podczerwieni i widzialne. Wiele współczesnych metod wykorzystuje uczenie głębokie, gdzie model sam odkrywa, które cechy zachować i jak je mieszać. Popularnym pomysłem jest uwaga, która pozwala sieci skupić się na najważniejszych częściach obrazu. Jednak wcześniejsze systemy albo koncentrowały się tylko na każdym obrazie z osobna, albo mieszały je bez wystarczającej kontroli. Oznaczało to, że ważne detale z jednej kamery mogły zostać przytłoczone przez sygnały z drugiej, albo końcowy obraz stawał się matowy i mniej informacyjny.

Uwaga w dwóch kierunkach

Autorzy proponują nowy model fuzji oparty na idei podwójnej uwagi. Najpierw sieć analizuje każde zdjęcie oddzielnie, aby zrozumieć jego wewnętrzne wzorce i struktury, takie jak krawędzie, tekstury i gorące obiekty. Następnie wykonuje uwagę krzyżową, gdzie widoki w podczerwieni i widzialne wchodzą ze sobą w interakcję i wzajemnie się naprowadzają, tak by odpowiadające sobie regiony mogły wymieniać użyteczne informacje. Te kroki realizowane są przy użyciu nowoczesnego bloku konstrukcyjnego zwanego Swin Transformer, który dzieli obraz na małe łatki i analizuje powiązania między odległymi regionami. Po tej dwuetapowej ekstrakcji kolejny blok uwagi miesza połączone cechy w jedną reprezentację, która jest następnie przekształcana z powrotem w obraz.

Figure 2. Krokowe mieszanie obszarów termicznych i szczegółów, tak aby każdy obraz przodował tam, gdzie dostarcza najwięcej informacji.

Pozwolić danym decydować, kto przewodzi

Kluczowa idea tej pracy polega na tym, że równowaga między obiema kamerami powinna zmieniać się w zależności od miejsca na obrazie. W niektórych regionach ważniejsze są kształty wynikające z ciepła, na przykład osoba stojąca na tle zatłoczonej sceny. W innych istotna jest widzialna tekstura, np. oznakowanie drogi czy krawędzie budynków. Autorzy projektują adaptacyjną regułę treningową, która mierzy, jak wizualnie aktywna jest każda kamera w każdej małej łatce obrazu, i automatycznie zmienia siłę wpływu tej łatki na proces uczenia. To kieruje sieć do podkreślania źródła, które lokalnie dostarcza więcej informacji, zamiast narzucać jednakową wagę wszędzie.

Jak dobrze działa nowa metoda

Zespół testuje swoją metodę na dwóch standardowych zbiorach scen zewnętrznych obejmujących drogi, pojazdy, ludzi i złożone tła. Porównują ją z siedmioma czołowymi technikami fuzji reprezentującymi różne rodziny metod głębokiego uczenia. Zarówno inspekcja wizualna, jak i kilka wskaźników numerycznych pokazują, że nowe podejście dostarcza obrazy o wyższym kontraście, ostrzejszych krawędziach i bogatszych szczegółach, jednocześnie zachowując kluczowe cele termiczne. Dalsze testy, w których usuwano lub modyfikowano części modelu, potwierdzają, że zarówno konstrukcja uwagi krzyżowej, jak i adaptacyjna reguła treningowa odgrywają istotne role w osiąganych poprawach.

Co to oznacza dla widzenia w świecie rzeczywistym

Dla czytelnika popularnonaukowego wniosek jest prosty. Ucząc komputer nie tylko oglądać dwa źródła, ale zarządzać tym, jak wzajemnie się wpływają w zależności od lokalizacji, ta metoda tworzy wyraźniejsze obrazy połączone niż wcześniejsze podejścia. To może ułatwić ludziom i systemom zautomatyzowanym wykrywanie ważnych obiektów w trudnych warunkach, a podobne pomysły mogą wspierać przyszłe narzędzia łączące inne typy danych z czujników.

Cytowanie: Wang, Z., Hu, Y. & Zhang, B. Infrared-visible image fusion with double-attention mechanism and adaptive interaction loss. Sci Rep 16, 15941 (2026). https://doi.org/10.1038/s41598-026-45802-9

Słowa kluczowe: fuzja obrazów, obrazowanie w podczerwieni, widzenie komputerowe, sieci uwagi, samochody autonomiczne