Clear Sky Science · pl

Atak semantyczny uwagi zwiększający transferowalność próbek przeciwnych

· Powrót do spisu

Dlaczego oszukiwanie inteligentnych maszyn ma znaczenie

Nowoczesne systemy sztucznej inteligencji oparte na głębokich sieciach neuronowych są dziś zaufane do wykrywania pieszych w samochodach autonomicznych, rozpoznawania twarzy na zdjęciach czy wspomagania lekarzy w odczycie skanów medycznych. Mają jednak zaskakujący słaby punkt: drobne, starannie zaprojektowane zmiany w obrazie — niewidoczne dla nas — mogą spowodować, że będą prognozować skrajnie błędnie. Badanie opisane w tym artykule zajmuje się tą podatnością, prezentując nowy sposób tworzenia takich „przeciwnikowych” obrazów, które potrafią oszukać wiele różnych modeli naraz, co stanowi zarówno ostrzeżenie dotyczące bezpieczeństwa SI, jak i potężne narzędzie do testowania odporności przyszłych systemów.

Jak atakują sieci neuronowe dziś

Większość istniejących metod ataku polega na przesuwaniu każdego piksela w kierunku, który najbardziej zwiększa standardową funkcję straty modelu. Gdy napastnik zna wszystko o modelu — jego strukturę i parametry — ta „white-box” strategia jest bardzo skuteczna. W praktyce jednak zwykle mamy do czynienia z modelem „black‑box” wdrożonym przez firmę lub szpital, w którym szczegóły wewnętrzne są ukryte. Aby go zaatakować, trzeba wygenerować obrazy przeciwnikowe na modelu zastępczym i mieć nadzieję, że również oszukają ukryty system — tę właściwość nazywa się transferowalnością. Standardowe sztuczki oparte na gradientach często przeuczą się na modelu zastępczym: wykorzystują osobliwości granicy decyzyjnej tego jednego modelu, więc ich skuteczność gwałtownie spada, gdy te same obrazy trafią do innych architektur lub do modeli utwardzonych treningiem przeciwnikowym.

Przyglądanie się temu, na co model zwraca uwagę

Autorzy wychodzą od prostego, lecz silnego spostrzeżenia: różne sieci neuronowe trenowane na tym samym zbiorze danych mają tendencję do „patrzenia” na podobne obszary obrazu przy tej samej predykcji. Ten wewnętrzny fokus można zwizualizować jako mapę cieplną pokazującą, które piksele najbardziej przyczyniają się do decyzji — coś w rodzaju mapy uwagi maszyny. Nawet gdy architektury się różnią, wzory uwagi są uderzająco podobne dla tego samego wejścia i etykiety. Artykuł formalizuje ten współdzielony wzorzec jako Własność Semantyczna Uwag (Attentional Semantic Property, ASP), ilościowy opis tego, jak silnie każdy piksel wspiera konkretną kategorię. Zamiast traktować mapy uwagi jedynie jako narzędzie wizualizacji, autorzy czynią z ASP obiekt, który można bezpośrednio optymalizować.

Demolowanie wspólnego znaczenia zamiast gonienia za etykietami
Figure 1
Rysunek 1.

W oparciu o ten pomysł artykuł wprowadza Atak Semantyczny Uwag (ASA). Zamiast popychać obraz, by zwiększyć zwykłą stratę klasyfikacyjną, ASA poszukuje drobnych zmian pikseli, które celowo zniekształcają ASP. Atak ma na celu zmniejszenie uwagi poświęcanej prawdziwej klasie przy jednoczesnym zwiększeniu uwagi dla innej, nieprawidłowej klasy. Aby uniknąć przeuczenia na pojedynczej alternatywnej etykiecie, ASA często wybiera tę drugą klasę losowo w trakcie każdego kroku optymalizacji, zmuszając zakłócenie do naruszania bardziej ogólnych wzorców dowodów zamiast jedynie zamiany dwóch najwyższych predykcji. Technicznie ASA oblicza pikselowe mapy relewancji za pomocą metody zwanej propagacją relewancji warstwa‑po‑warstwie (Layer‑wise Relevance Propagation), a następnie definiuje funkcje straty mierzące, jak podobne lub różne są te mapy przed i po perturbacji. Iteracyjne podążanie za gradientem tej straty opartej na uwadze prowadzi do „perturbacji uwagowych”, które przekształcają to, co wiele modeli uznaje za istotne na obrazie.

Pomiary i porównanie szkód

Aby przetestować swoją metodę, autorzy generują obrazy przeciwnikowe na jednym dobrze znanym modelu i oceniają je na kilkunastu innych, w tym standardowych sieciach konwolucyjnych, modelach utwardzonych treningiem przeciwnikowym oraz nowoczesnych transformatorach wizji. W rozległych eksperymentach opartych na ImageNet ASA konsekwentnie osiąga wyższe wskaźniki sukcesu ataku niż szeroka gama konkurentów wykorzystujących sprytne modyfikacje gradientu, transformacje wejścia czy manipulację cechami pośrednimi. Artykuł proponuje też nowy sposób ilościowego określania, jak „silny” jest atak, nazwany Zmianą Pewności Etykiety (Label Confidence Change, LCC). Zamiast pytać tylko, czy etykieta przewidywana się zmieniła, LCC mierzy, o ile spada ufność modelu w pierwotną poprawną klasę. Wysokie LCC sygnalizuje, że obraz został głęboko zdeformowany w sposób bardziej prawdopodobny do transferu na nieznane modele, a próbki ASA wykazują zauważalnie większe LCC niż metody konkurencyjne.

Zaglądanie w mechanizm ataku
Figure 2
Rysunek 2.

Wizualne porównania map uwagi pomagają wyjaśnić, dlaczego ASA tak dobrze się transferuje. Przy tradycyjnych atakach jasne obszary ogniska w sieci przesuwają się tylko nieznacznie w miarę postępu iteracji, nawet gdy końcowa predykcja jest błędna; podstawowa koncepcja modelu dotycząca lokalizacji obiektu pozostaje nienaruszona, co ogranicza zakres, w jakim perturbacja się uogólnia. W przypadku ASA powtarzane stosowanie perturbacji uwagowo‑semantycznych radykalnie przebudowuje te mapy: uwaga odpływa z prawdziwego obiektu i migruje do obszarów tła lub nieistotnych struktur. Ta całkowita reorganizacja wewnętrznego fokusu pojawia się zarówno w modelach zwykłych, jak i odpornych, i można ją dodatkowo wzmocnić, łącząc ASA z istniejącymi sztuczkami zwiększającymi skuteczność, takimi jak losowe skalowanie wejścia czy zespoły modeli źródłowych.

Co to oznacza dla bezpieczniejszej SI

Mówiąc prosto, artykuł pokazuje, że dzisiejsze systemy wizji dzielą wspólne „poczucie znaczenia” tego, co ma znaczenie na obrazie — i że celowo dobrany szum potrafi pomieszać to wspólne znaczenie w wielu różnych modelach jednocześnie. Atakując bezpośrednio uwagę, a nie tylko końcowe wyniki etykiet, ASA generuje obrazy przeciwnikowe, których obecne mechanizmy obronne trudniej zignorować i które są bardziej wiarygodne do testowania odporności systemów w realnym świecie. Dla obrońców podkreśla to, że ochrona SI będzie wymagać zabezpieczeń nie tylko na poziomie wyjść, lecz także wewnętrznych ścieżek uwagi, które leżą u podstaw rozumienia świata przez model.

Cytowanie: Wang, P., Liu, J. Attentional semantic attack for enhancing adversarial samples transferability. Sci Rep 16, 10957 (2026). https://doi.org/10.1038/s41598-026-45207-8

Słowa kluczowe: przykłady przeciwnikowe, bezpieczeństwo sieci neuronowych, mapy uwagi, ataki black-box, klasyfikacja obrazów