Clear Sky Science · pt

Ataque semântico atencional para melhorar a transferibilidade de amostras adversariais

· Voltar ao índice

Por que enganar máquinas inteligentes importa

Sistemas modernos de inteligência artificial baseados em redes neurais profundas já são confiáveis para detectar pedestres em carros autônomos, reconhecer rostos em fotos e ajudar médicos a interpretar exames. No entanto, esses sistemas têm um ponto fraco surpreendente: pequenas alterações cuidadosamente projetadas em uma imagem — imperceptíveis para nós — podem levá‑los a fazer previsões totalmente equivocadas. O estudo deste artigo aborda essa vulnerabilidade, mostrando uma nova forma de construir imagens “adversariais” que conseguem enganar muitos modelos diferentes ao mesmo tempo, oferecendo ao mesmo tempo um alerta mais preciso sobre a segurança da IA e uma ferramenta potente para testar a resistência de sistemas futuros.

Como os invasores enganam redes neurais hoje

A maioria dos métodos de ataque existentes atua movendo cada pixel na direção que mais aumenta a perda de treinamento habitual de um modelo. Quando os invasores conhecem tudo sobre o modelo — sua estrutura e parâmetros — essa estratégia “caixa‑branca” é muito eficaz. Mas no mundo real normalmente enfrentamos um modelo “caixa‑preta” implantado por uma empresa ou hospital, cujos detalhes internos estão ocultos. Para atacá‑lo, é preciso criar imagens adversariais em um modelo substituto e torcer para que elas também enganem o sistema oculto, uma propriedade chamada transferibilidade. Truques padrão baseados em gradiente muitas vezes se ajustam demais ao substituto: exploram idiossincrasias da fronteira de decisão daquele único modelo, de modo que seu sucesso cai acentuadamente quando as mesmas imagens são enviadas para arquiteturas diferentes ou para modelos endurecidos por treinamento defensivo.

Observando onde o modelo está prestando atenção

Os autores partem de uma observação simples mas poderosa: redes neurais diferentes, treinadas no mesmo conjunto de dados, tendem a “olhar” para partes semelhantes de uma imagem ao fazer a mesma previsão. Esse foco interno pode ser visualizado como um mapa de calor que mostra quais pixels mais contribuem para uma decisão — uma espécie de mapa de atenção da máquina. Mesmo quando as arquiteturas diferem, esses padrões de atenção são surpreendentemente parecidos para a mesma entrada e rótulo. O artigo formaliza esse padrão compartilhado como a Propriedade Semântica Atencional (PSA), uma descrição quantitativa de quão fortemente cada pixel sustenta uma determinada categoria. Em vez de tratar mapas de atenção apenas como uma ferramenta de visualização, os autores transformam a PSA em um objeto que pode ser diretamente otimizado.

Destruir significado compartilhado em vez de perseguir rótulos
Figure 1
Figure 1.

Com base nessa ideia, o artigo apresenta o Ataque Semântico Atencional (ASA). Em vez de forçar uma imagem a aumentar a perda de classificação usual, o ASA busca pequenas mudanças nos pixels que distorçam especificamente a PSA. O objetivo do ataque é reduzir a atenção dedicada à classe verdadeira enquanto aumenta a atenção para alguma outra classe incorreta. Para evitar ajustar demais a um único rótulo alternativo, o ASA frequentemente escolhe essa outra classe aleatoriamente a cada passo de otimização, forçando a perturbação a interromper padrões de evidência mais gerais em vez de apenas trocar as duas previsões principais. Tecnicamente, o ASA calcula mapas de relevância pixel a pixel usando um método chamado Propagação de Relevância por Camada (Layer‑wise Relevance Propagation) e então define funções de perda que medem quão semelhantes ou diferentes esses mapas estão antes e depois da perturbação. Seguir iterativamente o gradiente dessa perda baseada em atenção produz “perturbações atencionais” que remodelam o que múltiplos modelos consideram importante na imagem.

Medindo e comparando o dano

Para testar o método, os autores geram imagens adversariais em um modelo bem conhecido e as avaliam em uma dúzia de outros, incluindo redes convolucionais padrão, modelos endurecidos com treinamento adversarial e transformadores de visão modernos. Em experimentos extensivos baseados em ImageNet, o ASA alcança consistentemente taxas de sucesso de ataque superiores às de uma ampla gama de competidores que dependem de ajustes engenhosos de gradiente, transformações de entrada ou manipulação de características intermediárias. O artigo também propõe uma nova forma de quantificar quão “forte” é um ataque, chamada Mudança de Confiança do Rótulo (Label Confidence Change, LCC). Em vez de apenas perguntar se o rótulo previsto se inverte, a LCC mede o quanto a confiança do modelo na classe correta original cai. LCC alta sinaliza que a imagem foi profundamente corrompida de um modo mais provável de transferir para modelos não vistos, e as amostras do ASA mostram LCC notavelmente maiores do que métodos rivais.

Espiando o mecanismo do ataque
Figure 2
Figure 2.

Comparações visuais de mapas de atenção ajudam a explicar por que o ASA transfere tão bem. Sob ataques tradicionais, as regiões de foco brilhantes dentro da rede mudam apenas ligeiramente conforme as iterações prosseguem, mesmo quando a previsão final está errada; a noção básica do modelo sobre onde o objeto está permanece intacta, o que limita o quão amplamente a perturbação generaliza. Com o ASA, a aplicação repetida de perturbações atencionais reconfigura radicalmente esses mapas: a atenção se esvazia do objeto verdadeiro e migra para áreas de fundo ou estruturas irrelevantes. Essa rearrumação total do foco interno aparece tanto em modelos comuns quanto em modelos robustos, e pode ser reforçada ao combinar o ASA com truques de melhoria existentes, como redimensionamento aleatório da entrada ou ensembles de modelos fonte.

O que isso significa para uma IA mais segura

Em termos claros, o artigo mostra que os sistemas de visão atuais compartilham um “sentido de significado” comum sobre o que importa em uma imagem — e que ruído cuidadosamente direcionado pode embaralhar esse significado compartilhado em muitos modelos diferentes ao mesmo tempo. Ao atacar diretamente a atenção em vez de apenas as pontuações finais de rótulo, o ASA produz imagens adversariais que são mais difíceis para as defesas atuais ignorarem e mais confiáveis para testar sistemas do mundo real. Para os defensores, isso ressalta que proteger a IA exigirá proteger não apenas as saídas, mas também os caminhos internos de atenção que sustentam a compreensão do modelo sobre o mundo.

Citação: Wang, P., Liu, J. Attentional semantic attack for enhancing adversarial samples transferability. Sci Rep 16, 10957 (2026). https://doi.org/10.1038/s41598-026-45207-8

Palavras-chave: exemplos adversariais, segurança de redes neurais, mapas de atenção, ataques caixa‑preta, classificação de imagens