Clear Sky Science · tr
Kara kutu sınıflandırıcılar için güvenlik izleyicilerinin tasarımı, çerçevesi ve kıyaslaması
Neden güvenli makine kararları önemli
Giderek daha fazla makine araba sürmeye yardımcı oluyor, cerrahi aletleri yönlendiriyor, fabrikaları gözetliyor ve kritik altyapıyı denetliyor. Tüm bu görevler veriye bakıp “güvenli” veya “güvenli değil” gibi seçenekler arasında karar veren yazılıma dayanıyor. Bu yargı yanlış olduğunda sonuç bir kaçırılan izinsiz giriş, yanlış okunmuş bir trafik ışığı veya tespit edilemeyen bir arızalı parça olabilir. Bu makale, bu tür karar yazılımlarını riskli cevapların körü körüne güvenilmesi yerine işaretlenip geri tutulmasını sağlayacak ek bir koruma katmanıyla nasıl çevreleyebileceğimizi inceliyor.

Mükemmel cevaplardan güvenilir davranışa
Yapay zekâ üzerine yapılan çoğu çalışma sınıflandırıcıları mümkün olduğunca doğru yapmaya odaklanır, ancak en iyi sistemler bile hata yapar. İnsan uzmanlar da durumu yanlış değerlendirebilir; yine de genellikle ne zaman yardım isteyeceklerini bilirler ve bu yüzden onlara güveniriz. Yazarlar, makine karar vericilerin daha çok buna benzer davranması gerektiğini savunuyor. Bir sınıflandırıcıyı her zaman bir etiket seçmeye zorlamak yerine “emin değilim” demesine izin verilmeli ve daha geniş sistemin güvenli şekilde yanıt vermesi sağlanmalı. Pratikte bu, öngörülemeyen yanlış cevapları sistemin diğer bölümlerinin işlemesine olanak verecek kontrollü reddedilmeye dönüştürmek, örneğin bir aracı yavaşlatmak, bir insandan giriş istemek veya daha güvenli bir moda geçmek anlamına gelir.
Kara kutu modellerin etrafına bir güvenlik sarmalı eklemek
Günümüz sınıflandırıcıları genellikle kara kutu olarak ele alınır: veriyi alır ve bir tahmin üretir, iç işleyişleri ise gizli ya da incelemesi karmaşık olur. SPROUT adındaki önerilen güvenlik sarmalı, içine bakmaya gerek duymadan böyle bir kara kutunun etrafına oturur. Her yeni girdiyi, sınıflandırıcının olası sınıflara verdiği olasılıkları ve bu girdinin geçmiş verilerle nasıl karşılaştığını izler. Bu bilgilerden SPROUT, bir tahminin iletilmeye yetecek kadar güvenilir olup olmadığına veya şüpheli sayılarak reddedilip reddedilmeyeceğine karar verir. Önemli nokta, neredeyse her mevcut sınıflandırıcının—görüntüler veya sayısal tablolar, ikili veya çok sınıflı olsun—sınıf olasılıklarını çıktılayabildiği sürece bu şekilde sarılabileceğidir.
Şüpheyi birçok farklı şekilde ölçmek
Bir tahminin gerçekten ne kadar emin olduğunu değerlendirmek için SPROUT tek bir sinyale dayanmaz. Bunun yerine, her biri şüpheye farklı bir açıdan bakan birkaç “belirsizlik ölçüsü”nü birleştirir. Bazıları, bir sınıf olasılığının gerçekten öne çıkıp çıkmadığı veya olasılıkların eşit şekilde dağılıp dağılmadığı gibi basit işaretleri kontrol eder. Diğerleri, sınıflandırıcının cevabını aynı veride eğitilmiş ek “kontrolcü” modellerin cevabı ile veya eğitim setindeki yakın veri noktalarına verilen cevaplarla karşılaştırır. Bir başka ölçü, bir otoenkoder ağı kullanarak girdiyi yeniden inşa etmeye çalışır ve kötü bir yeniden yapılandırmayı, yeni verilerin önceden görülmüş hiçbir şeye benzemediğine dair bir ipucu olarak ele alır. Bu ölçümler birlikte küçük bir sayılar tablosu oluşturur ve bir ikinci seviye küçük model olan hakem (adjudicator) bunu basit bir tut veya reddet kararına dönüştürür.

Birçok veri seti ve model türü üzerinde test
Yazarlar, ağ saldırıları, biyometrik sahtekârlık, donanım arızaları, Nesnelerin İnterneti sensörleri ve birkaç popüler görüntü setini kapsayan 35 kamuya açık veri seti kullanan geniş bir deneysel çalışma yürüttüler. Denetimli ve denetimsiz olmak üzere 20'den fazla sınıflandırıcı türünü denediler ve tabular veriler ile görüntüler için ayrı SPROUT kurulumları oluşturduk. Her durumda, orijinal sınıflandırıcının ne sıklıkla yanlış yaptığını ve SPROUT'un bu yanlış cevapları kaçırmadan önce ne sıklıkla reddettiğini ölçtüler. Birçok denetimli görevde, bazı görüntü problemleri dahil, SPROUT kalan hata oranını önemli ölçüde düşürdü. Bazı durumlarda—örneğin bir ağ güvenliği veri setindeki lojistik regresyon modelinde—her tek yanlış sınıflandırmayı reddederek bazen güvenilmez olan bir bileşeni, reddedilmedikçe çıktılarına güvenilebilecek bir hale getirdi.
Güvenlik, kullanılabilirlik ve maliyet arasında denge kurmak
Elbette daha fazla hatayı yakalamak genellikle daha fazla doğru cevabın da reddedilmesi anlamına gelir ve birçok belirsizlik ölçümünü hesaplamak zaman ve kaynak maliyeti ekler. Çalışma, SPROUT'un tipik olarak denetimli sınıflandırıcıları yaklaşık dört ila beş kat daha yavaş hale getirdiğini ve bazı ölçümlerin diğerlerinden daha maliyetli olduğunu gösteriyor. Bu, bir tasarım takasını işaret ediyor: güvenlik açısından kritik sistemler zararlı sonuçlardan kaçınmak için ek gecikmeyi ve daha fazla reddi kabul edebilirken, zamana duyarlı veya kaynak kısıtlı uygulamalar daha ucuz daha küçük bir kontrol seti seçebilir. Yazarlar ayrıca hangi ölçümlerin pratikte en önemli olduğunu belirleyerek gerektiğinde daha hafif sürümler inşa etmeye yönelik rehberlik sağlıyor.
Gerçekte daha güvenli yapay zekâ için bunun anlamı
Açıkça söylemek gerekirse, makalenin ana mesajı kusursuz makine kararları beklemeyi bırakmamız ve bunun yerine sistemlerimizden ne zaman yanlış olabileceklerini bilmelerini talep etmemiz gerektiğidir. SPROUT, mevcut kara kutu sınıflandırıcıları şüphe farkında bir kalkanla sarmak için pratik bir yol sunuyor; şüpheli çıktılar zarar vermeden önce reddediliyor. Bu koruma ekstra hesaplama ve zaman zaman geçerli tahminlerin kaybı ile birlikte gelirken, sonuçlar tehlikeli bir hatanın fark edilmeden geçme olasılığını büyük ölçüde azaltabileceğini gösteriyor ve AI tabanlı karar vermeyi gerçek dünyada daha güvenilir hale getiriyor.
Atıf: Khokhar, F.A., Zoppi, T., Cennini, L. et al. Design, framework and benchmark of safety monitors for black-box classifiers. Sci Rep 16, 15626 (2026). https://doi.org/10.1038/s41598-026-45091-2
Anahtar kelimeler: Yapay zeka güvenliği, belirsizlik, güvenilir yapay zeka, makine öğrenimi izleyicisi, SPROUT çerçevesi