Moderne künstliche Intelligenzsysteme, die von tiefen neuronalen Netzen angetrieben werden, werden inzwischen darauf vertraut, Fußgänger in selbstfahrenden Autos zu erkennen, Gesichter auf Fotos zu identifizieren und Ärzten beim Lesen medizinischer Aufnahmen zu helfen. Diese Systeme haben jedoch eine überraschende Schwachstelle: winzige, sorgfältig gestaltete Änderungen an einem Bild – für uns kaum wahrnehmbar – können dazu führen, dass sie völlig falsche Vorhersagen treffen. Die in diesem Papier vorgestellte Studie widmet sich dieser Verwundbarkeit und zeigt eine neue Methode zur Erstellung solcher „adversariellen“ Bilder, die gleichzeitig viele verschiedene Modelle täuschen können. Das liefert sowohl eine eindringlichere Warnung zur KI‑Sicherheit als auch ein leistungsfähiges Werkzeug zum Belastungstest künftiger Systeme.
Wie Angreifer neuronale Netze heute austricksen
Die meisten bestehenden Angriffsverfahren arbeiten, indem sie jedes Pixel in die Richtung verändern, die den üblichen Trainingsverlust eines Modells am stärksten erhöht. Wenn Angreifer alles über das Modell wissen – seine Struktur und Parameter – ist diese „White‑Box“-Strategie sehr effektiv. In der realen Welt stehen wir jedoch meist vor einem „Black‑Box“-Modell, das von einem Unternehmen oder Krankenhaus betrieben wird und dessen interne Details verborgen sind. Um es anzugreifen, muss man adversarielle Bilder an einem Stellvertretermodell erstellen und darauf hoffen, dass diese auch das verborgene System täuschen – eine Eigenschaft, die Transferierbarkeit genannt wird. Standardmäßige gradientenbasierte Tricks überanpassen oft an den Stellvertreter: Sie nutzen Besonderheiten der Entscheidungsgrenze genau dieses einen Modells aus, sodass ihr Erfolg stark sinkt, wenn dieselben Bilder an andere Architekturen oder an durch defensive Trainings gehärtete Modelle gesendet werden.
Hinsehen, worauf das Modell achtet
Die Autoren beginnen mit einer einfachen, aber starken Beobachtung: Verschiedene neuronale Netze, die auf demselben Datensatz trainiert wurden, tendieren dazu, bei derselben Vorhersage auf ähnliche Bildbereiche „zu schauen“. Dieser interne Fokus lässt sich als Heatmap visualisieren, die zeigt, welche Pixel am meisten zu einer Entscheidung beitragen – eine Art Maschinenaufmerksamkeitskarte. Selbst wenn die Architekturen unterschiedlich sind, ähneln sich diese Aufmerksamkeitsmuster für dieselbe Eingabe und dasselbe Label auffallend. Das Papier formalisiert dieses geteilte Muster als die Attentional Semantic Property (ASP), eine quantitative Beschreibung, wie stark jedes Pixel eine bestimmte Kategorie stützt. Statt Aufmerksamkeitskarten nur als Visualisierungswerkzeug zu betrachten, machen die Autoren ASP selbst zu einem Objekt, das direkt optimiert werden kann.
Gemeinsame Bedeutung zerstören statt Labels nachjagen Figure 1.
Auf dieser Idee aufbauend führt das Papier den Attentional Semantic Attack (ASA) ein. Anstatt ein Bild so zu verändern, dass der klassische Klassifikationsverlust steigt, sucht ASA nach winzigen Pixeländerungen, die gezielt die ASP verzerren. Der Angriff zielt darauf ab, die Aufmerksamkeit für die wahre Klasse zu verringern und gleichzeitig die Aufmerksamkeit für eine andere, falsche Klasse zu erhöhen. Um ein Überanpassen an eine einzelne alternative Klasse zu vermeiden, wählt ASA diese andere Klasse häufig zufällig in jedem Optimierungsschritt aus, wodurch die Perturbation gezwungen wird, allgemeinere Evidenzmuster zu stören, statt nur die ersten beiden Vorhersagen zu vertauschen. Technisch berechnet ASA pixelweise Relevanzkarten mittels einer Methode namens Layer‑wise Relevance Propagation und definiert dann Verlustfunktionen, die messen, wie ähnlich oder unterschiedlich diese Karten vor und nach der Perturbation sind. Das iterative Folgen des Gradienten dieser auf Aufmerksamkeit basierenden Verlustfunktion erzeugt „attentional perturbations“, die das, was mehrere Modelle im Bild für wichtig halten, neu gestalten.
Schaden messen und vergleichen
Um ihre Methode zu testen, erzeugen die Autoren adversarielle Bilder an einem bekannten Modell und bewerten sie an einem Dutzend anderer Modelle, darunter Standard‑Convolutional‑Netzwerke, mit adversarialem Training gehärtete Modelle und moderne Vision Transformer. In umfangreichen, auf ImageNet basierten Experimenten erreicht ASA durchgängig höhere Angriffserfolgsraten als eine breite Palette von Konkurrenten, die auf geschickten Gradiententricks, Eingabetransformationen oder Manipulationen intermediärer Merkmale beruhen. Das Papier schlägt außerdem eine neue Möglichkeit vor, wie stark ein Angriff ist: die Label Confidence Change (LCC). Anstatt nur zu fragen, ob sich das vorhergesagte Label umdreht, misst LCC, wie stark das Vertrauen des Modells in die ursprüngliche korrekte Klasse sinkt. Hohe LCC signalisiert, dass das Bild tiefgreifend beschädigt wurde — eine Eigenschaft, die eher auf unbekannte Modelle übertragbar ist — und ASAs Beispiele zeigen deutlich größere LCC als konkurrierende Methoden.
Ein Blick in den Angriffsmechanismus Figure 2.
Visuelle Vergleiche von Aufmerksamkeits‑Heatmaps helfen zu erklären, warum ASA so gut transferiert. Unter traditionellen Angriffen verschieben sich die hellen Fokusregionen im Netzwerk während der Iterationen oft nur geringfügig, selbst wenn die endgültige Vorhersage falsch ist; die grundlegende Vorstellung des Modells davon, wo sich das Objekt befindet, bleibt erhalten, was die Generalisierbarkeit der Perturbation einschränkt. Unter ASA bewirken wiederholte Anwendungen attentionaler Perturbationen eine radikale Umstrukturierung dieser Karten: Die Aufmerksamkeit entzieht sich dem wahren Objekt und wandert zu Hintergrundbereichen oder irrelevanten Strukturen. Diese umfassende Neuordnung des internen Fokus zeigt sich sowohl in normalen als auch in robusten Modellen und lässt sich weiter verstärken, indem ASA mit bestehenden Verstärkungsmaßnahmen kombiniert wird, etwa zufälliger Eingabegrößenänderung oder Ensembles von Quellmodellen.
Was das für sicherere KI bedeutet
Einfach gesagt zeigt das Papier, dass heutige Visionsysteme ein gemeinsames „Bedeutungsgefühl“ darüber teilen, was in einem Bild wichtig ist — und dass gezielt platzierter Rauschen diese geteilte Bedeutung über viele verschiedene Modelle hinweg durcheinanderbringen kann. Indem ASA direkt die Aufmerksamkeit angreift und nicht nur die finalen Label‑Scores, erzeugt es adversarielle Bilder, die bestehende Abwehrmaßnahmen schwerer abweisen können und sich besser zum Belastungstest realer Systeme eignen. Für Verteidiger unterstreicht dies, dass der Schutz von KI nicht nur die Ausgaben, sondern auch die internen Aufmerksamkeitswege sichern muss, die dem Modell‑Verständnis der Welt zugrunde liegen.
Zitation: Wang, P., Liu, J. Attentional semantic attack for enhancing adversarial samples transferability.
Sci Rep16, 10957 (2026). https://doi.org/10.1038/s41598-026-45207-8
Schlüsselwörter: adversarielle Beispiele, Sicherheit von neuronalen Netzen, Aufmerksamkeitskarten, Black‑Box‑Angriffe, Bildklassifikation