Clear Sky Science · tr

Düşmanca örneklerin taşınabilirliğini artırmak için dikkat temelli semantik saldırı

· Dizine geri dön

Neden akıllı makinelerin kandırılması önemli

Derin sinir ağlarıyla güçlendirilmiş modern yapay zeka sistemlerine artık otonom araçlar için yaya tespiti yapma, fotoğraflarda yüzleri tanıma ve doktorlara tıbbi görüntüleri okuma konusunda güveniliyor. Yine de bu sistemlerin şaşırtıcı bir zayıf noktası var: görüntüye yapılan, bizim fark edemeyeceğimiz kadar küçük ve dikkatle hazırlanmış değişiklikler onların tamamen yanlış tahminler yapmasına neden olabiliyor. Bu makaledeki çalışma bu güvenlik açığıyla ilgileniyor ve aynı anda birçok farklı modeli kandırabilen yeni bir “düşmanca” görüntü oluşturma yolunu gösteriyor; bu hem yapay zekâ güvenliği hakkında daha keskin bir uyarı sunuyor hem de gelecekteki sistemleri stres-test etmek için güçlü bir araç sağlıyor.

Saldırganlar bugün sinir ağlarını nasıl kandırıyor

Mevcut saldırı yöntemlerinin çoğu, her pikseli modelin alışılmış eğitim kaybını en çok artıran yönde hafifçe iterek çalışır. Saldırganlar modelin yapısını ve parametrelerini tamamen biliyorsa—yani “beyaz kutu” senaryosunda—bu strateji çok etkilidir. Ancak gerçek dünyada çoğunlukla şirket veya hastane tarafından dağıtılan ve iç detayları gizli tutulan “kara kutu” modellen yüzleşiriz. Buna saldırmak için, bir vekil model üzerinde düşmanca görüntüler üretip bu görüntülerin gizli sistemi de kandırmasını ummak gerekir; buna taşınabilirlik denir. Standart gradyan tabanlı hileler genellikle vekil modele fazla uyum sağlar: tek bir modelin karar sınırının tuhaflıklarından yararlanırlar, bu yüzden aynı görüntüler farklı mimarilere veya savunmalı eğitimle güçlendirilmiş modellere gönderildiğinde başarıları keskin biçimde düşer.

Modelin neye dikkat ettiğine bakmak

Yazarlar basit ama güçlü bir gözlemden yola çıkıyor: aynı veri kümesi üzerinde eğitilmiş farklı sinir ağları aynı tahmini yaparken görüntünün benzer bölgelerine “bakma” eğilimindedir. Bu içsel odak, hangi piksellerin bir karara en çok katkıda bulunduğunu gösteren bir ısı haritası olarak görselleştirilebilir—bir tür makine dikkat haritası. Mimari farklı olsa bile, aynı girdi ve etiket için bu dikkat desenleri çarpıcı biçimde benzeşir. Makale bu paylaşılan deseni Piksel Başına Dikkat Semantik Özelliği (Attentional Semantic Property, ASP) olarak formüle ediyor; her pikselin belirli bir kategoriyi ne kadar güçlü desteklediğinin nicel bir tanımı. Yazarlar dikkat haritalarını yalnızca görselleştirme aracı olarak ele almak yerine, ASP’yi doğrudan optimize edilebilen bir nesne haline getiriyorlar.

Etiketleri kovalamak yerine paylaşılan anlamı yok etmek
Figure 1
Figure 1.

Bu fikir üzerine kurulu makale, Dikkat Temelli Semantik Saldırıyı (Attentional Semantic Attack, ASA) tanıtıyor. Bir görüntüyü alışılmış sınıflandırma kaybını artıracak şekilde zorlamak yerine, ASA özellikle ASP’yi bozacak küçük piksel değişiklikleri arar. Saldırı, gerçek sınıfa ayrılan dikkati azaltmayı ve bunun yerine başka, yanlış bir sınıfa dikkat çekmeyi hedefler. Tek bir alternatif etikete fazla uyum sağlanmasını önlemek için, ASA genellikle her optimizasyon adımında bu diğer sınıfı rastgele seçer; böylece bozulma yalnızca en iyi iki tahmini yer değiştirmekle kalmaz, daha genel kanıt desenlerini de bozmak zorunda kalır. Teknik olarak ASA, Layer‑wise Relevance Propagation adlı bir yöntemle piksel bazlı alaka haritaları hesaplar ve ardından bu haritaların bozulmadan önce ve sonra ne kadar benzer veya farklı olduğunu ölçen kayıp fonksiyonları tanımlar. Bu dikkat tabanlı kaybın gradyanını yinelemeli olarak izlemek, birden çok modelin görüntüde önemli saydığı şeyleri yeniden şekillendiren “dikkatsel bozuntular” üretir.

Zararı ölçme ve karşılaştırma

Yöntemlerini test etmek için yazarlar bir tanınmış model üzerinde düşmanca görüntüler üretiyor ve bunları on iki diğer modelde değerlendiriyor; bunların arasında standart konvolüsyonel ağlar, düşmanca eğitimle güçlendirilmiş modeller ve modern görsel dönüştürücüler bulunuyor. Geniş ImageNet tabanlı deneyler boyunca, ASA rasgele giriş ölçeklendirme veya ara özellik manipülasyonu gibi zeki gradyan hilelerine dayanan çeşitli rakiplere kıyasla tutarlı şekilde daha yüksek saldırı başarı oranları elde ediyor. Makale ayrıca bir saldırının ne kadar “güçlü” olduğunu nicelleştirmenin yeni bir yolunu öneriyor: Etiket Güven Değişimi (Label Confidence Change, LCC). Sadece tahmin edilen etiketin değişip değişmediğini sormak yerine, LCC modelin orijinal doğru sınıfa olan güveninin ne kadar düştüğünü ölçer. Yüksek LCC, görüntünün derinden bozulduğunu ve görünmeyen modellere taşınma olasılığının daha yüksek olduğunu işaret eder; ASA’nın örnekleri rakip yöntemlerden belirgin şekilde daha yüksek LCC gösteriyor.

Saldırı mekanizmasının içini incelemek
Figure 2
Figure 2.

Dikkat ısı haritalarının görsel karşılaştırmaları ASA’nın neden bu kadar iyi taşındığını açıklamaya yardımcı oluyor. Geleneksel saldırılar altında, parlak odak bölgeleri yinelemeler ilerledikçe yalnızca biraz kayar, nihai tahmin yanlış olsa bile; nesnenin nerede olduğuna dair modelin temel algısı büyük ölçüde korunur, bu da bozuntunun ne kadar geniş biçimde genelleştiğini sınırlar. ASA altında, dikkat bazlı bozuntuların tekrarlı uygulanması bu haritaları kökten yeniden yapılandırır: dikkat gerçek nesneden uzaklaşır ve arka plan alanlarına veya alakasız yapılara kayar. Bu içsel odakların toplu yeniden düzenlenmesi hem sıradan hem de sağlam modellere görünür ve ASA, rastgele giriş yeniden boyutlandırma veya kaynak modellerin ansambları gibi mevcut geliştirme hileleriyle birleştirildiğinde daha da güçlendirilebilir.

Daha güvenli bir yapay zekâ için sonuç

Düz bir ifadeyle makale, günümüz görme sistemlerinin bir görüntüde neyin önemli olduğuna dair ortak bir “anlam duygusunu” paylaştığını ve dikkatle hedeflenmiş gürültünün bu paylaşılan anlamı aynı anda birçok farklı modelde bozabileceğini gösteriyor. Sadece nihai etiket skorlarına değil, aynı zamanda bir modelin dünyayı anlama sürecinin temelini oluşturan içsel dikkat yollarına da doğrudan saldırarak, ASA mevcut savunmaların göz ardı etmesi zor olan ve gerçek dünyadaki sistemleri stres-test etmek için daha güvenilir düşmanca görüntüler üretiyor. Savunucular için bu, AI korumasının yalnızca çıktıları değil, aynı zamanda bir modelin anlayışını destekleyen iç dikkat yollarını da güvence altına alması gerektiğini vurguluyor.

Atıf: Wang, P., Liu, J. Attentional semantic attack for enhancing adversarial samples transferability. Sci Rep 16, 10957 (2026). https://doi.org/10.1038/s41598-026-45207-8

Anahtar kelimeler: düşmanca örnekler, sinir ağı güvenliği, dikkat haritaları, kara kutu saldırılar, görüntü sınıflandırma