Clear Sky Science · tr

MnMR-GenA: az kaynaklı dillerde jailbreak saldırıları için morfolojik rekombinasyon genetik algoritması

· Dizine geri dön

Neden tüm dillerde daha güvenli yapay zeka önemli

Güçlü sohbet botları dünya çapında yayıldıkça insanlar bunları sadece İngilizce veya Çince değil, yüzlerce dilde kullanıyor. Ancak zararlı cevapları engelleyen pek çok güvenlik kontrolü, iyi çalışılmış dillerden elde edilen verilerle ayarlanıyor. Bu makale endişe verici bir soruyu gündeme getiriyor: daha az kullanılan dillerde, zararlı istemlerin savunmaları daha kolay atlatabileceği gizli zayıf noktalar var mı ve varsa, araştırmacılar sistemleri daha güvenli hale getirmek için bu kör noktaları nasıl ortaya çıkarabilir?

Figure 1. Saldırganların daha az kullanılan dillerdeki zayıf güvenlik önlemlerini nasıl kullanıp yapay zeka sohbet botlarını zararlı yanıtlar vermeye ikna ettiği
Figure 1. Saldırganların daha az kullanılan dillerdeki zayıf güvenlik önlemlerini nasıl kullanıp yapay zeka sohbet botlarını zararlı yanıtlar vermeye ikna ettiği

Çok dilli yapay zeka güvenliğindeki gizli çatlaklar

Büyük dil modelleri geniş metin koleksiyonlarından öğrenir ve daha sonra suç, nefret veya diğer tehlikeli konularda tavsiye vermekten kaçınmaları için ayarlanır. Ancak bu ayarlama genellikle zengin eğitim verilerine sahip yüksek kaynaklı dillerde en güçlüdür. Düşük kaynaklı dillerde güvenlik katmanı çok daha ince kalır. Önceki çalışmalar, zararlı bir İngilizce istemin basitçe bu tür bir dile çevrilmesinin modelin güvensiz bir yanıt verme olasılığını artırabileceğini gösterdi. Yazarlar, uzun kelimelerin birçok kısa parçayı peş peşe ekleyerek oluşturulduğu ve zararlı bir talebin ifade edilme biçimlerini büyük ölçüde artıran eklemeli (agglutinatif) diller adını verdikleri özel bir dil grubuna odaklanıyor.

Basit çeviriden evrimleşen saldırı istemlerine

Mevcut saldırıların çoğu üç gruba ayrılıyor. Bazıları modele “rol yap” veya “kuralları görmezden gel” gibi talimatlar veren elle yazılmış şablonlara dayanıyor; bunların oluşturulması zaman alıcı ve şirketlerin yamalaması kolay. Diğerleri girdileri yönlendirmek için model içi erişim kullanıyor, ancak bunlar genellikle dedektörlerin kolayca işaretleyebildiği anlamsız diziler üretiyor. Üçüncü grup modeli bir kara kutu olarak ele alıp arama veya evrim kullanarak istemleri yeniden yazıyor, ama genellikle yalnızca tüm cümle gibi tek bir düzeyde çalışıyor; bu da yaratıcılığı sınırlıyor ve sık sık anlamı bozuyor. Çeviri tabanlı saldırılar düşük kaynaklı dillerde daha iyi sonuç veriyor, ancak yine de İngilizce orijinal yapısına bağlı kalıyor ve eklemeli dillerin esnek sözcük oluşturma imkanlarından tam olarak yararlanmıyor.

Sinsi istemler için bir evrim motoru

Bu sınırlamaların ötesine geçmek için yazarlar MnMR-GenA adlı bir çerçeve tasarlıyor; bu çerçeve her zararlı istemi zaman içinde evrimleşen bir varyant nüfusu olarak ele alıyor. Sistem, Moğolca, Türkçe ve Guarani gibi düşük kaynaklı dillere çevrilmiş bilinen jailbreak istemlerinden başlıyor ve ardından bunları rekombine edip mutasyona uğratmak için bir genetik algoritma kullanıyor. Kritik olan, bu evrimin aynı anda üç düzeyde gerçekleşmesidir. Kelime düzeyinde, uzun kelimeler kök ve ek parçalara ayrılıyor ve dilin kurallarına göre yeniden düzenlenerek yeni ama doğal görünen kelimeler oluşturuluyor. Cümle düzeyinde, anlamı yeniden karıştırırken dilbilgisini korumak için istemler arasında segmentler takas ediliyor. Paragraf düzeyinde ise kim konuşuyor, ne yapıyor ve hangi durumda olduğu gibi bloklar değiş tokuş edilerek zararlı niyeti gizleyebilecek zengin hikâye benzeri kurulumlar yaratılıyor.

Figure 2. Düşük kaynaklı dil istem parçalarını evrimleştirip yeniden birleştirmenin zararlı niyeti yapay zeka savunmalarından nasıl gizlediği
Figure 2. Düşük kaynaklı dil istem parçalarını evrimleştirip yeniden birleştirmenin zararlı niyeti yapay zeka savunmalarından nasıl gizlediği

Hangi istemlerin gerçekten kuralları çiğnediğini puanlamak

Her yeniden yazılmış istem modeli kandırmıyor, bu yüzden MnMR-GenA başarıyı ölçmek için bir yönteme ihtiyaç duyuyor. Sistem hedef modeli sorguluyor ve aynı anda iki şeyi değerlendiriyor: modelin cevabının zararlı niyete ne kadar yakın olduğu ve cevabın içinde özür dileyici ifadeler gibi bir red belirtisi olup olmadığı. Bu iki sinyal, evrimi daha etkili istemlere yönlendiren tek bir puanda harmanlanıyor. Akıllı bir seçme şeması en iyi adayları tutarken hâlâ yararlı tuhaflıklar içerebilecek zayıf olanlara yer bırakıyor. Mutasyon gücü ise takviye benzeri bir kuralla zaman içinde ayarlanıyor; böylece ilk nesiller birçok vahşi varyantı keşfederken sonraki nesiller en umut verici istemler etrafında daha dikkatli ince ayarlar yapıyor.

Deneyler model zayıflıkları hakkında ne gösteriyor

Ekip MnMR-GenA’yı iki açık kaynak model ve yaygın kullanılan bir ticari model üzerinde, iki herkese açık tehlikeli soru koleksiyonunu kullanarak test ediyor. Üç düşük kaynaklı dilde yöntemleri, evrim kullanan birkaç güçlü tabana kıyasla açıkça daha yüksek olan yaklaşık %80 civarında jailbreak başarı oranlarına ulaşıyor. Bunu modele yapılan sorgu sayısında büyük bir artış olmadan yapıyor; bu da aramanın hem verimli hem de etkili olduğunu gösteriyor. Modeller yapay görünen metin arayan veya girdilere rastgele gürültü ekleyen ekstra savunmalarla sarılsa bile MnMR-GenA nispeten yüksek bir başarı oranını koruyor; çünkü onun istemleri sıradan dile benziyor ve kırılgan yüzeysel numaralara dayanıyor değil.

Daha güvenli yapay zeka inşa etmenin anlamı

Bir uzman olmayan için mesaj net: mevcut yapay zeka sistemleri, hizmeti az sağlanan dillerde İngilizceye kıyasla çok daha kolay yanıltılabiliyor ve zeki istem üreteçleri bu zayıf noktaları sistematik olarak ortaya çıkarabilir. MnMR-GenA gerçek dünya kötüye kullanımı için değil, güvenlik testleri için bir araç olarak sunulsa da başarıları diller arasında savunmaları güçlendirmenin, karmaşık sözcük oluşturma sistemlerine özel dikkat göstermenin ve evrimleşen saldırı stratejileriyle başa çıkabilecek daha iyi tespit araçları geliştirmenin aciliyetini vurguluyor.

Atıf: Li, Y., Wang, G. & Wang, H. MnMR-GenA: a morphological recombination genetic algorithm for jailbreak attacks in low-resource language. Sci Rep 16, 16113 (2026). https://doi.org/10.1038/s41598-026-47434-5

Anahtar kelimeler: büyük dil modelleri, jailbreak saldırıları, düşük kaynaklı diller, yapay zeka güvenliği, genetik algoritmalar