Clear Sky Science · fr

Attaque sémantique attentionnelle pour améliorer la transférabilité des exemples adverses

· Retour à l’index

Pourquoi tromper les machines intelligentes importe

Les systèmes d'intelligence artificielle modernes, propulsés par des réseaux neuronaux profonds, sont désormais sollicités pour détecter des piétons dans les véhicules autonomes, reconnaître des visages sur des photos et aider les médecins à interpréter des images médicales. Pourtant, ces systèmes ont un point faible surprenant : de minuscules modifications soigneusement conçues d'une image — imperceptibles pour nous — peuvent provoquer des prédictions radicalement erronées. L'étude présentée dans cet article s'attaque à cette vulnérabilité en proposant une nouvelle manière de créer ces images « adverses » capables de tromper simultanément de nombreux modèles différents, fournissant à la fois un signal d'alerte plus net sur la sécurité de l'IA et un outil puissant pour tester la robustesse des systèmes futurs.

Comment les attaquants trompent les réseaux neuronaux aujourd'hui

La plupart des méthodes d'attaque existantes opèrent en poussant chaque pixel dans la direction qui augmente le plus la perte d'entraînement habituelle d'un modèle. Quand les attaquants connaissent tout du modèle — sa structure et ses paramètres — cette stratégie « boîte blanche » est très efficace. Mais dans le monde réel, on est souvent face à un modèle « boîte noire » déployé par une entreprise ou un hôpital, dont les détails internes sont cachés. Pour l'attaquer, il faut concevoir des images adverses sur un modèle de substitution et espérer qu'elles trompent aussi le système caché, une propriété appelée transférabilité. Les astuces classiques basées sur le gradient surajustent souvent le modèle de substitution : elles exploitent des particularités de la frontière de décision de ce modèle, si bien que leur succès chute fortement lorsque les mêmes images sont présentées à d'autres architectures ou à des modèles durcis par un entraînement défensif.

Regarder ce à quoi le modèle prête attention

Les auteurs partent d'une observation simple mais puissante : des réseaux neuronaux différents entraînés sur le même jeu de données tendent à « regarder » des parties similaires d'une image lorsqu'ils rendent la même prédiction. Ce focus interne peut être visualisé sous la forme d'une carte thermique montrant quels pixels contribuent le plus à une décision — une sorte de carte d'attention machine. Même lorsque les architectures diffèrent, ces schémas d'attention sont étonnamment semblables pour une même entrée et une même étiquette. L'article formalise ce motif partagé sous la dénomination de propriété sémantique attentionnelle (Attentional Semantic Property, ASP), une description quantitative de la force avec laquelle chaque pixel soutient une catégorie particulière. Plutôt que de traiter les cartes d'attention comme un simple outil de visualisation, les auteurs transforment l'ASP elle-même en un objet susceptible d'être optimisé directement.

Détruire le sens partagé au lieu de courir derrière les étiquettes
Figure 1
Figure 1.

Sur la base de cette idée, l'article introduit l'Attentional Semantic Attack (ASA). Plutôt que de pousser une image à augmenter la perte de classification classique, l'ASA recherche de petites modifications de pixels qui déforment spécifiquement l'ASP. L'attaque vise à réduire l'attention accordée à la classe vraie tout en augmentant l'attention pour une autre classe incorrecte. Pour éviter de surajuster une étiquette alternative unique, l'ASA choisit souvent cette autre classe aléatoirement à chaque étape d'optimisation, obligeant la perturbation à perturber des motifs de preuve plus généraux au lieu de simplement échanger les deux premières prédictions. Techniquement, l'ASA calcule des cartes de pertinence pixel par pixel en utilisant une méthode appelée Layer-wise Relevance Propagation, puis définit des fonctions de perte qui mesurent la similarité ou la différence de ces cartes avant et après perturbation. Suivre itérativement le gradient de cette perte basée sur l'attention produit des « perturbations attentionnelles » qui reconfigurent ce que plusieurs modèles considèrent comme important dans l'image.

Mesurer et comparer les dégâts

Pour évaluer leur méthode, les auteurs génèrent des images adverses sur un modèle bien connu et les testent sur une douzaine d'autres, incluant des réseaux convolutionnels standards, des modèles durcis par entraînement adversarial et des transformeurs de vision modernes. À travers des expériences étendues basées sur ImageNet, l'ASA obtient systématiquement des taux de réussite d'attaque plus élevés qu'un large éventail de méthodes concurrentes reposant sur des ajustements astucieux de gradients, des transformations d'entrée ou la manipulation de caractéristiques intermédiaires. L'article propose également une nouvelle manière de quantifier la « puissance » d'une attaque, appelée variation de confiance d'étiquette (Label Confidence Change, LCC). Plutôt que de se contenter de vérifier si l'étiquette prédite bascule, la LCC mesure dans quelle mesure la confiance du modèle dans la classe correcte d'origine diminue. Une LCC élevée indique que l'image a été profondément corrompue d'une manière plus susceptible de se transférer à des modèles non vus, et les échantillons produits par l'ASA montrent des LCC notablement plus grandes que les méthodes rivales.

Examiner le mécanisme de l'attaque
Figure 2
Figure 2.

Les comparaisons visuelles des cartes d'attention aident à expliquer pourquoi l'ASA se transfère si bien. Sous les attaques traditionnelles, les régions de concentration lumineuse à l'intérieur du réseau se déplacent peu au fil des itérations, même lorsque la prédiction finale est erronée ; la notion fondamentale du modèle sur l'emplacement de l'objet reste intacte, ce qui limite l'étendue de la généralisation de la perturbation. Avec l'ASA, l'application répétée des perturbations attentionnelles reconfigure radicalement ces cartes : l'attention se dissipe de l'objet réel et migre vers des zones d'arrière-plan ou des structures non pertinentes. Cette réorganisation complète du focus interne apparaît à la fois dans les modèles ordinaires et robustes, et peut être renforcée en combinant l'ASA avec des astuces d'amélioration existantes telles que le redimensionnement aléatoire des entrées ou des ensembles de modèles source.

Ce que cela signifie pour une IA plus sûre

En termes simples, l'article montre que les systèmes de vision actuels partagent un « sens du sens » commun quant à ce qui importe dans une image — et qu'un bruit ciblé avec soin peut brouiller ce sens partagé à travers de nombreux modèles différents à la fois. En attaquant directement l'attention plutôt que uniquement les scores d'étiquette finaux, l'ASA produit des images adverses plus difficiles à neutraliser pour les défenses actuelles et plus fiables pour tester la robustesse des systèmes réels. Pour les défenseurs, cela souligne que protéger l'IA exigera de préserver non seulement les sorties mais aussi les voies internes d'attention qui sous-tendent la compréhension qu'un modèle a du monde.

Citation: Wang, P., Liu, J. Attentional semantic attack for enhancing adversarial samples transferability. Sci Rep 16, 10957 (2026). https://doi.org/10.1038/s41598-026-45207-8

Mots-clés: exemples adverses, sécurité des réseaux neuronaux, cartes d'attention, attaques boîte noire, classification d'images