Clear Sky Science · pl

Lekka hybrydowa sieć poprawiająca percepcję dla super-rozdzielczości obrazów w podczerwieni

· Powrót do spisu

Bardziej wyraźne widzenie cieplne dla codziennej technologii

Kamery podczerwieni pozwalają nam „widzieć” ciepło po zmroku, przez mgłę lub we wnętrzu maszyn — jednak obrazy, które generują, często są rozmyte i ubogie w szczegóły. W artykule przedstawiono nowy sposób wyostrzania tych zamazanych obrazów termicznych za pomocą sztucznej inteligencji, dzięki czemu kamery bezpieczeństwa, skanery medyczne i narzędzia inspekcji przemysłowej mogą dostarczać jaśniejszych, bardziej wiarygodnych informacji bez potrzeby stosowania większego lub droższego sprzętu.

Figure 1
Figure 1.

Dlaczego obrazy w podczerwieni trudno doprowadzić do przejrzystości

W przeciwieństwie do aparatów w smartfonach, czujniki podczerwieni rejestrują niewidzialne promieniowanie cieplne zamiast światła widzialnego. To sprawia, że są nieocenione w ochronie, obronie, medycynie i monitorowaniu urządzeń — mogą wykrywać ludzi w nocy, wskazywać stany zapalne lub ujawniać przegrzewające się elementy. Jednak czujniki podczerwieni zwykle mają niską rozdzielczość, ponieważ wysokiej klasy detektory są drogie i energochłonne. Metody programowe zwane super-rozdzielczością próbują przekształcić obraz o niskiej rozdzielczości w ostrzejszy. Tradycyjne sieci neuronowe oparte na splotach dobrze wychwytują lokalne wzorce, takie jak małe krawędzie, ale mają trudności ze zrozumieniem powiązań między odległymi fragmentami obrazu. Nowsze sieci oparte na transformatorach potrafią uchwycić szerszy kontekst, lecz są ciężkie, wolne i zwykle tracą drobne detale, takie jak cienkie linie i tekstury — czyli cechy kluczowe przy wykrywaniu małych obiektów na scenach w podczerwieni.

Połączenie dwóch sposobów widzenia

Autorzy proponują nowy model, Hybrid Perception Enhancement Network (HPEN), zaprojektowany specjalnie tak, aby równoważyć szczegółowość i wydajność dla obrazów w podczerwieni. Jego centralny element — Hybrid Perception Enhancement Block — łączy kolejno trzy pomysły. Najpierw etap „agregacji tokenów” grupuje podobne fragmenty obrazu, by sieć mogła rozważać scenę na poziomie globalnym, coś w rodzaju grupowania powiązanych obszarów przed zinterpretowaniem ich znaczenia. Następnie etap „cech wieloskalowych” wykorzystuje równoległe ścieżki przetwarzania, by jednocześnie analizować drobne struktury i nieco większe okolice, co pomaga zachować krawędzie, tekstury i szersze kształty. Wreszcie prosty filtr 3×3 dopracowuje i oczyszcza cechy, zapobiegając efektom wygładzania, które mogą wprowadzać duże, globalne operacje.

Wnętrze nowego silnika wyostrzającego

Z perspektywy całego systemu HPEN proces zaczyna się od lekkiego przetwarzania niskorozdzielczego obrazu w podczerwieni w celu wydobycia podstawowych wzorców. Te informacje są następnie przekazywane przez serię hybrydowych bloków, z których każdy pogłębia rozumienie sceny przez sieć, łącząc relacje na długim dystansie ze szczegółami małej skali. Połączenie skrótowe pozwala oryginalnym, surowym informacjom ominąć te głębsze warstwy, dzięki czemu sieć może skupić się na odtworzeniu brakujących treści wysokoczęstotliwościowych — takich jak wyraźne krawędzie i małe gorące punkty. W etapie końcowym kompaktowy moduł powiększający skaluje cechy do docelowej rozdzielczości, przekształcając je w wyostrzone obrazy podczerwieni o rozmiarze porównywalnym z wysokiej jakości odniesieniem. Całość została zaprojektowana celowo lekko, ograniczając liczbę operacji i zużycie pamięci na tyle, aby praktyczne wdrożenie na powszechnych procesorach graficznych było możliwe.

Figure 2
Figure 2.

Jak metoda sprawdza się w praktyce

Aby przetestować HPEN, autorzy wytrenowali i ocenili go na kilku publicznych zbiorach danych podczerwieni obejmujących sceny miejskie, roślinność, pojazdy, pieszych i warunki nocne. Porównali go z wieloma niedawnymi „lekkimi” metodami super-rozdzielczości, które mają być zarówno dokładne, jak i wydajne. HPEN konsekwentnie dorównywał lub nieco przewyższał konkurentów pod kątem standardowych miar jakości, które oceniają, jak bliski odniesieniu o wysokiej rozdzielczości jest wyostrzony obraz. Był szczególnie silny w trudniejszym ustawieniu powiększenia czterokrotnego, gdzie przekształcenie bardzo małego obrazu w znacznie większy często ujawnia artefakty. Pomimo tej dokładności HPEN zużywał znacząco mniej obliczeń, dużo mniej pamięci karty graficznej i oferował szybszy czas przetwarzania niż mocne konkurencyjne modele oparte na transformatorach. Dodatkowe testy oceniające postrzeganą, „ludzką” jakość obrazu wykazały, że wyniki HPEN wyglądały najbardziej podobnie do rzeczywistych obrazów podczerwieni o wysokiej rozdzielczości, z mniejszą liczbą wypłukanych krawędzi i lepiej zachowanymi teksturami.

Co to oznacza w zastosowaniach praktycznych

Dla osoby nietechnicznej kluczowy wniosek jest taki, że HPEN oferuje mądrzejszy sposób „zwiększania zbliżenia” w kamerach termicznych bez zmiany sprzętu. Poprzez staranne połączenie kontekstu globalnego (rozumienia całej sceny) z detalem lokalnym (zachowaniem drobnych krawędzi i tekstur) w efektywnym pakiecie, metoda generuje ostrzejsze, bardziej informacyjne obrazy w podczerwieni przy utrzymaniu kosztów obliczeniowych pod kontrolą. Może to pomóc systemom nadzoru w wyraźniejszym wykrywaniu osób lub pojazdów w ciemności, pozwolić inspektorom przemysłowym dostrzec cienkie pęknięcia lub gorące punkty na urządzeniach oraz dostarczyć lekarzom czytelniejszych wzorców termicznych podczas nieinwazyjnego badania — wszystko przy użyciu istniejących czujników, które nagle widzą więcej niż wcześniej.

Cytowanie: Liu, Z., Tian, J., Liu, C. et al. A lightweight hybrid perception enhancement network for infrared image super-resolution. Sci Rep 16, 6572 (2026). https://doi.org/10.1038/s41598-026-37763-w

Słowa kluczowe: obrazowanie w podczerwieni, super-rozdzielczość, uczenie głębokie, poprawa obrazu, widzenie komputerowe