Clear Sky Science · pl

S2SWCLIP: semantycznie zoptymalizowane prompta ze współdziałaniem przestrzenno-falowym do wykrywania anomalii w trybie zero-shot

2026-03-11 · Powrót do spisu

Wykrywanie drobnych wad bez udostępniania danych wrażliwych

Współczesne fabryki i szpitale coraz częściej polegają na kamerach do wychwytywania defektów i oznak chorób, lecz zebranie i oznakowanie wystarczającej liczby przykładów wadliwych jest trudne — a w medycynie często ograniczone przepisami o prywatności. W artykule wprowadzono S2SWCLIP, technikę potrafiącą wykrywać nietypowe wzorce na obrazach, takie jak pęknięcia w metalu czy podejrzane obszary na skanach, nawet jeśli nigdy wcześniej nie widziała przykładów z konkretnej linii produkcyjnej czy szpitala. Osiąga to, łącząc przemyślane użycie języka z zaawansowanym sposobem analizowania kształtów i tekstur w obrazach.

Dlaczego znajdowanie rzadkich problemów jest tak trudne

Wykrywanie anomalii polega na stwierdzeniu, czy obraz, a nawet pojedynczy piksel, jest normalny czy wadliwy. Na liniach produkcyjnych i w obrazowaniu medycznym prawdziwe defekty są rzadkie i bardzo zróżnicowane, więc tradycyjne systemy trenuje się głównie na próbkach normalnych, aby nauczyć się, jak wygląda „prawidłowość”. Wiele skutecznych metod albo rekonstruuje obrazy i flaguje różnice, albo tworzy zwarte opisy normalnego wyglądu i poszukuje odchyleń. Te podejścia działają dobrze, gdy dostępne są dane z docelowego środowiska. Jednak w warunkach wrażliwych na prywatność lub stale zmieniających się środowiskach może nie być możliwości ponownego trenowania modeli dla każdego nowego produktu czy części ciała. Ostatnie metody „zero-shot” oparte na CLIP — potężnym modelu łączącym obrazy i tekst — oferują możliwość wykrywania anomalii tylko przez ich opisanie słowami. Istniejące podejścia często jednak opierają się na nieprecyzyjnych promptach tekstowych i zgrubnych cechach obrazu, co może zamazywać granicę między normalnymi a nieprawidłowymi wzorcami.

Wyostrzanie języka opisującego normalne i uszkodzone

S2SWCLIP zajmuje się najpierw stroną językową. Zamiast używać jednej ogólnej frazy, takiej jak „uszkodzony obiekt”, metoda buduje trzy rodziny promptów. Pierwsza jest niezależna od obiektu i opisuje nieokreślony przedmiot jako normalny lub uszkodzony. Druga przeciwstawia wyraźnie pozytywne i negatywne stany, stosując nacechowane emocjonalnie słowa takie jak „perfekcyjnie” kontra „poważnie”, wraz z zestawami terminów sugerujących bezusterkowość lub uszkodzenie. Trzecia rodzina odnosi się do konkretnych typów defektów — jak pęknięcia czy zarysowania — aby uczynić pojęcie uszkodzenia bardziej namacalnym. Różne frazy przeprowadza się przez część tekstową CLIP, a specjalny mechanizm fuzji porównuje i łączy ich wewnętrzne sygnały. Poprzez odfiltrowanie szumów i wzmocnienie silnie skorelowanych składników system tworzy bogatsze, lepiej rozdzielone pojęcie „normalności” i „anomalii” jeszcze zanim rozważony zostanie jakikolwiek obraz.

Widzieć zarówno detale, jak i ogólny obraz

Po stronie wizualnej S2SWCLIP przeprojektowuje sposób, w jaki CLIP analizuje obrazy. Standardowe wersje mają tendencję do faworyzowania szerokich, ogólnych wrażeń, które mogą przeoczyć cienkie linie pęknięcia lub subtelne cieniowanie wskazujące wczesną chorobę. Aby temu zaradzić, autorzy dodają hierarchiczny moduł fuzji, który miesza informacje z różnych rozdzielczości, zachowując zarówno drobne szczegóły, jak i duże struktury. Następnie stosują dwukrotną transformatę falkową, klasyczne narzędzie przetwarzania sygnałów, które rozdziela obraz na gładkie komponenty tła i ostrzejsze krawędzie albo tekstury. Używając dwóch typów falek, metoda jednocześnie wychwytuje łagodne globalne wariacje i nagłe lokalne zmiany, po czym ponownie łączy je w mapy cech uwzględniające częstotliwość. Ta „przestrzenno-falowa synergia” daje modelowi bardziej czuły wgląd w drobne defekty, które wyróżniają się w teksturze lub dziedzinie częstotliwości, a które mogą być niemal niewidoczne gołym okiem.

Wyrównanie tego, co mówimy, z tym, co widzimy

Ostatnim krokiem jest dopasowanie tych wzbogaconych cech obrazu do zoptymalizowanych promptów tekstowych. Dla całych obrazów S2SWCLIP mierzy, jak blisko reprezentacja każdego promptu pokrywa się z globalnym opisem obrazu. Dla map pikselowych wprowadza miarę podobieństwa opartą na entropii, która bada, ile informacji niesie każdy lokalny region w porównaniu z cechami tekstowymi. Regiony, których statystyki silnie przypominają prompty anomalii, a różnią się od promptów normalnych, są wyróżniane jako podejrzane. Model jest dostrajany na jednym przemysłowym benchmarku, a następnie testowany bez ponownego trenowania na 14 zróżnicowanych zbiorach danych obejmujących części wytwarzane, tekstury i obrazy medyczne. W większości tych testów S2SWCLIP przewyższa wcześniejsze metody zero-shot zarówno w klasyfikacji na poziomie obrazu, jak i lokalizacji na poziomie piksela, przy jednoczesnym utrzymaniu umiarkowanego czasu obliczeń i liczby trenowalnych parametrów.

Co to oznacza dla inspekcji w praktyce

Dla osoby niebędącej specjalistą główne przesłanie jest takie, że S2SWCLIP wykracza poza proste sformułowanie „czy to jest zepsute?” i zgrubne obserwacje, łącząc zamiast tego subtelny język z mikroskopowym spojrzeniem na strukturę obrazu. Poprzez wzmocnienie kontrastu między opisami normalnymi i wadliwymi oraz przez rozbiór obrazów na wieloskalowe, oparte na częstotliwości składowe, metoda bardziej niezawodnie wykrywa defekty bez potrzeby przykładów z każdego nowego środowiska. Chociaż wciąż może mieć trudności z ekstremalnie subtelnymi anomaliami zlewającymi się ze złożonym tłem, autorzy wskazują kierunki dalszych badań — takie jak bardziej lokalna analiza i zaawansowana geometria — które mogą zmniejszyć tę lukę. Ogólnie S2SWCLIP stanowi obiecujący krok w kierunku elastycznych, świadomych prywatności systemów inspekcji, które mogą dostosowywać się do nowych branż i kontekstów medycznych przy minimalnej dodatkowej liczbie danych.

Cytowanie: Zhang, H., Wu, C., Lu, J. et al. S2SWCLIP: semantic-optimized prompts with spatial-wavelet synergy for zero-shot anomaly detection. Sci Rep 16, 13062 (2026). https://doi.org/10.1038/s41598-026-43044-3

Słowa kluczowe: wykrywanie anomalii w trybie zero-shot, modele wizja-język, inspekcja przemysłowa, analiza obrazów medycznych, cechy obrazów w dziedzinie falkowej