Clear Sky Science · it

Attacco semantico attentivo per migliorare la trasferibilità di campioni avversari

· Torna all'indice

Perché ingannare le macchine intelligenti conta

I moderni sistemi di intelligenza artificiale basati su reti neurali profonde vengono oggi impiegati per rilevare pedoni nelle auto a guida autonoma, riconoscere volti nelle foto e aiutare i medici nella lettura di esami diagnostici. Eppure questi sistemi hanno un punto debole sorprendente: piccole modifiche accuratamente progettate a un’immagine—impercettibili per noi—possono indurli a fare previsioni completamente sbagliate. Lo studio descritto in questo articolo affronta quella vulnerabilità, proponendo un nuovo modo di costruire immagini “avversarie” in grado di ingannare molti modelli differenti contemporaneamente, offrendo sia un avvertimento più netto sulla sicurezza dell’IA sia uno strumento potente per mettere alla prova i sistemi futuri.

Come gli attaccanti ingannano le reti neurali oggi

La maggior parte dei metodi di attacco esistenti lavora spostando ogni pixel nella direzione che aumenta maggiormente la perdita di addestramento del modello. Quando l’attaccante conosce tutto del modello—la sua struttura e i suoi parametri—questa strategia “white-box” è molto efficace. Ma nel mondo reale ci si trova spesso di fronte a un modello “black-box” messo in produzione da un’azienda o da un ospedale, dove i dettagli interni sono nascosti. Per attaccarlo bisogna quindi creare immagini avversarie su un modello surrogato nella speranza che funzionino anche sul sistema nascosto, una proprietà chiamata trasferibilità. I trucchi standard basati sui gradienti spesso si adattano troppo al surrogato: sfruttano idiosincrasie della frontiera decisionale di quel singolo modello, perciò il loro successo cala bruscamente quando le stesse immagini vengono inviate a architetture diverse o a modelli induriti con addestramento difensivo.

Osservare a cosa il modello presta attenzione

Gli autori partono da un’osservazione semplice ma potente: reti neurali diverse addestrate sullo stesso dataset tendono a “guardare” parti simili dell’immagine quando fanno la stessa previsione. Questa focalizzazione interna può essere visualizzata come una mappa di calore che mostra quali pixel contribuiscono maggiormente a una decisione—una sorta di mappa di attenzione della macchina. Anche quando le architetture differiscono, questi schemi attentivi sono sorprendentemente simili per lo stesso input e la stessa etichetta. L’articolo formalizza questo schema condiviso come Proprietà Semantica Attentiva (ASP), una descrizione quantitativa di quanto ogni pixel supporti una particolare categoria. Invece di trattare le mappe di attenzione come un semplice strumento di visualizzazione, gli autori trasformano l’ASP in un oggetto che può essere direttamente ottimizzato.

Distruggere il significato condiviso invece di rincorrere le etichette
Figure 1
Figure 1.

Sulla base di questa idea, l’articolo introduce l’Attentional Semantic Attack (ASA). Invece di spingere un’immagine ad aumentare la perdita di classificazione usuale, ASA cerca piccole modifiche dei pixel che distorcano specificamente l’ASP. L’attacco punta a ridurre l’attenzione dedicata alla classe vera aumentando l’attenzione verso qualche altra classe errata. Per evitare di sovra‑adattarsi a una singola etichetta alternativa, ASA sceglie spesso quell’altra classe in modo casuale durante ogni passo di ottimizzazione, costringendo la perturbazione a interrompere schemi di evidenza più generali invece di limitarsi a scambiare le prime due predizioni. Tecnicamente, ASA calcola mappe di rilevanza pixel‑per‑pixel usando un metodo chiamato Layer‑wise Relevance Propagation, quindi definisce funzioni di perdita che misurano quanto queste mappe siano simili o diverse prima e dopo la perturbazione. Seguire iterativamente il gradiente di questa perdita basata sull’attenzione produce “perturbazioni attentive” che rimodellano ciò che più modelli considerano importante nell’immagine.

Misurare e confrontare il danno

Per testare il loro metodo, gli autori generano immagini avversarie su un modello ben noto e le valutano su una dozzina di altri, includendo reti convoluzionali standard, modelli induriti con addestramento avversario e moderni vision transformer. In ampi esperimenti basati su ImageNet, ASA ottiene costantemente tassi di successo dell’attacco più alti rispetto a una vasta gamma di concorrenti che fanno affidamento su astuzie nei gradienti, trasformazioni dell’input o manipolazione di feature intermedie. L’articolo propone anche un nuovo modo di quantificare quanto un attacco sia “forte”, chiamato Label Confidence Change (LCC). Invece di chiedersi semplicemente se l’etichetta predetta cambia, LCC misura quanto cala la fiducia del modello nella classe corretta originale. Un LCC elevato segnala che l’immagine è stata profondamente corrotta in un modo più probabile che si trasferisca a modelli non visti, e i campioni di ASA mostrano LCC sensibilmente maggiori rispetto ai metodi rivali.

Guardare dentro il meccanismo d’attacco
Figure 2
Figure 2.

I confronti visivi delle mappe di attenzione aiutano a spiegare perché ASA trasferisce così bene. Sotto attacchi tradizionali, le regioni di massima attenzione all’interno della rete si spostano solo leggermente man mano che procedono le iterazioni, anche quando la predizione finale è sbagliata; la nozione fondamentale del modello su dove si trovi l’oggetto rimane intatta, il che limita la generalizzazione della perturbazione. Con ASA, l’applicazione ripetuta di perturbazioni attentive riorganizza radicalmente queste mappe: l’attenzione si prosciuga dall’oggetto vero e migra verso aree di sfondo o strutture irrilevanti. Questo rimescolamento totale del focus interno appare sia nei modelli ordinari sia in quelli robusti, e può essere ulteriormente rafforzato combinando ASA con trucchi di potenziamento esistenti come il ridimensionamento casuale dell’input o ensemble di modelli sorgente.

Cosa significa questo per un’IA più sicura

In termini semplici, l’articolo mostra che i sistemi di visione odierni condividono un “senso del significato” comune su cosa conta in un’immagine—e che rumore mirato con cura può scombinare quel significato condiviso su molti modelli diversi contemporaneamente. Attaccando direttamente l’attenzione invece che solo i punteggi finali delle etichette, ASA produce immagini avversarie più difficili da neutralizzare per le difese attuali e più affidabili per mettere sotto stress sistemi del mondo reale. Per i difensori, questo sottolinea che proteggere l’IA richiederà di tutelare non solo gli output ma anche i percorsi interni di attenzione che sostengono la comprensione del mondo da parte di un modello.

Citazione: Wang, P., Liu, J. Attentional semantic attack for enhancing adversarial samples transferability. Sci Rep 16, 10957 (2026). https://doi.org/10.1038/s41598-026-45207-8

Parole chiave: esempi avversari, sicurezza delle reti neurali, mappe di attenzione, attacchi black-box, classificazione delle immagini