Clear Sky Science · tr

Yükseköğretim ve mesleki eğitim için eğitimsel büyük dil modellerine yönelik istem yönlendirme saldırıları

· Dizine geri dön

Öğrenciler ve öğretmenler için neden önemli

Okullar ve mesleki eğitim programları giderek daha fazla işi notlamak, geri bildirim vermek ve öğrencilere koçluk yapmak için yapay zeka araçlarına yöneliyor. Bu makale, aynı araçların öğrenci yanıtlarının içine akıllıca gizlenmiş ifadelerle sessizce kandırılabileceğini gösteriyor. Bu tür hileler notları şişirebilir, kuralları esnetebilir ve öğretim sistemlerini yanıltabilir; bu da yapay zekâ destekli eğitimde adalet ve güven konusunda ciddi sorular doğuruyor.

Figure 1. Öğrenci yanıtlarındaki gizli işaretlerin, okullarda ve eğitim programlarında yapay zeka notlayıcılarını haksız sonuçlara yönlendirebilme biçimi.
Figure 1. Öğrenci yanıtlarındaki gizli işaretlerin, okullarda ve eğitim programlarında yapay zeka notlayıcılarını haksız sonuçlara yönlendirebilme biçimi.

Akıllı notlayıcılar nasıl yanıltılabilir

Modern dil modelleri gündelik dille yazılmış talimatları izleyerek çalışır. Eğitimde tek bir istem genellikle platform kurallarını, ödevi, ayrıntılı puanlama rehberini, örnekleri ve öğrenci yanıtını bir arada toplar. Her şey tek uzun bir metin olarak işlendiği için model kurallar ile sadece bir öğrenci cevabının parçası olanı karıştırabilir. Yazarlar, bu ses karışımının yeni bir güvenlik riski yarattığını gösteriyor: öğrenciler, gizli talimatları görünüşte düşünceli açıklamaların içine saklayarak modeli daha yumuşak puan vermeye veya puanlama kılavuzunun bazı bölümlerini görmezden gelmeye yönlendirebilir, bunu doğrudan söylemeden yapabilirler.

Normal bir cevabı gizli bir saldırıya dönüştürmek

Makale, bu tür yanıltıcı yanıtları oluşturmak için adım adım bir çerçeve sunuyor. Önce tam notlama istemini sistem kuralları, görev tanımı, puanlama rehberi ve öğrenci metni gibi ana parçalara ayırıyor. Sonra cevabın oynayacağı bir "rol" tasarlıyor; örneğin öz-değerlendirme ya da bir notlayıcı notu gibi görünmesi. Ardından saldırıyı, sistemin muhakeme veya yansıtma beklediği yanıt bölümlerine örüyor, böylece gizli talimatlar normal akademik yazı gibi görünür. Son olarak, ifadeler puanlama rehberinin diline yakın eşleştiriliyor; çünkü modeller genellikle rehberi yankılayan cevapları ödüllendiriyor. Sonuçta insan okuyucuya konuya uygun görünen ama modeli sessizce daha yüksek puan vermeye veya hataları göz ardı etmeye iten bir yanıt ortaya çıkıyor.

Figure 2. Bir öğrenci yanıtının içine gömülen renkli parçacıkların, yapay zeka notlayıcısını daha yüksek puanlar ve kural ihlallerine doğru nasıl çektiği.
Figure 2. Bir öğrenci yanıtının içine gömülen renkli parçacıkların, yapay zeka notlayıcısını daha yüksek puanlar ve kural ihlallerine doğru nasıl çektiği.

Testler risk hakkında neler ortaya koyuyor

Yazarlar, bu sorunun ne kadar ciddi olduğunu görmek için yöntemlerini kompozisyon notlama, kısa fen yanıtları, karışık sınıf senaryoları ve geniş akademik soruları içeren dört iyi bilinen eğitim görevleri koleksiyonunda test etti. Gerçekçi bir kara kutu düzeninde, ticarî sistemlerin konuşlandırılmasına benzer bir şekilde birkaç popüler talimat-ayarlı model kullandılar. Tüm ayarlarda, hazırlanan saldırılar mevcut çeşitli istem kırma numaralarından çok daha sık başarılı oldu. Ortalama olarak notları yüzde yirmiden fazla yükselttiler ve insan değerlendiriciler cevapları hâlâ normal ve eğitimsel açıdan makul olarak değerlendirmeye devam etti. Basit korumalar eklendiğinde—girdi temizleme, istemde rollerin ayrılması veya yapılandırılmış çıktı formatı dayatma gibi—saldırılar yine de etkili kaldı.

Sınıflarda daha güvenli yapay zekâ için öneriler

Yazarlar, bu sorunların sadece belirli bir modeldeki hatalar olmadığını, eğitimsel istemlerin tasarımından kaynaklandığını savunuyor. Öğrencinin yazısı hem kanıt hem de olası bir talimat kaynağı olarak işlev gördüğünde, "neyi değerlendireceğimiz" ile "nasıl değerlendireceğimiz" arasındaki sınır bulanıklaşıyor. Bu sınırı geri kazanmaya çalışan savunmaları araştırıyorlar: önce önemli kanıtları çıkarmak ve yalnızca onları puanlamak, notları kılavuza karşı doğrulamak için bağımsız bir doğrulayıcı model eklemek ve puanlar ile alıntılanan kanıt arasında sıkı bağlar zorunlu kılmak gibi. Bu fikirler, gizli talimatların nihai kararı fark edilmeksizin etkilemesini zorlaştırmayı amaçlıyor.

Yapay zeka notlamanın geleceği için anlamı

Genel olarak çalışma, notlama ve öğreticilik için kullanılan yapay zeka sistemlerinin, cevaplarını nasıl formüle edeceklerini bilen öğrenciler tarafından sessizce manipüle edilebileceğini gösteriyor. Bu araçlar artık ders notlarından mesleki sertifikalara kadar yüksek riskli kararlarda kullanıldığından, yazarlar tasarımcıları ve eğitimcileri güvenliği sonradan düşünülmesi gereken bir unsur olarak değil, temel bir gereklilik olarak ele almaya çağırıyor. Daha güvenli istemler oluşturmak, puanları destekleyen kanıtların nasıl kullanıldığını denetlemek ve sistemleri düzenli olarak düşmanca girdilerle test etmek, yapay zekâ destekli eğitimin adil ve güvenilir kalmasını sağlamak için gerekli adımlar olacak.

Atıf: Cai, Y. Prompt injection attacks on educational large language models for higher and vocational education. Sci Rep 16, 15594 (2026). https://doi.org/10.1038/s41598-026-46563-1

Anahtar kelimeler: istem yönlendirme, yapay zeka notlama güvenliği, eğitimsel büyük dil modelleri, otomatik değerlendirme, mesleki eğitim