Clear Sky Science · tr

Genel ölçekler, açıklayıcı ve öngörücü güce sahip AI değerlendirmesinin kilidini açıyor

· Dizine geri dön

Neden AI için daha iyi karnelere ihtiyacımız var

Yapay zeka sistemleri sohbet botlarından ve kodlama yardımcılarından bilim laboratuvarlarına, sınıflara ve iş yerlerine doğru ilerledikçe, onların neler yapıp yapamayacağını bilmek hayati önem kazanıyor. Bugünün AI karneleri çoğunlukla dar kıstaslarda tek bir test skoruna dayanıyor ve bir sistemin neden başarılı ya da başarısız olduğunu —ya da yeni tür bir problem karşısında nasıl davranacağını— pek açıklamıyor. Bu makale, hava için kullanılan sıcaklık ölçekleri kadar sistematik ve dayanıklı olmayı amaçlayan yeni bir ölçme yöntemi öneriyor; böylece AI’nin güçlü ve zayıf yönleri ile gelecekteki performansı hakkında daha net bilgi edinilebilir.

Dağınık testlerden paylaşılan ölçeklere

Mevcut AI değerlendirmelerinin çoğu, tek tek tasarlanmış okul sınavlarına benziyor: her kıstas birden fazla beceriyi ve zorluğu karıştırıyor ve nihai not tek bir yüzdeye indirgeniyor. O yüzde, AI’nın yeteneklerinden çok testin tuhaflıklarına bağlı olabiliyor. Yazarlar bunun yeni görevlerde performansı öngörmeyi imkansız kıldığını ve kafa karışıklığına yol açtığını savunuyor—örneğin bir matematik kıstası bir modelin “iyi akıl yürüttüğünü” söylerken, başka bir kıstas aksi izlenimi verebiliyor. Sadece puanları ortalamak yerine, her görevi, insanların anlayabileceği genel ölçekler boyunca ne kadar talep ettiği biçiminde tanımlamayı öneriyorlar.

AI yetenekleri için ortak bir cetvel inşa etmek

Bu ortak cetveli oluşturmak için ekip, geniş zihinsel becerileri ve bilgi alanlarını kapsayan 18 talep ölçeği tasarladı. Bunlar dil anlama, akıl zincirlerini takip etme, kendi bilgisinin üzerine düşünme ve doğal, sosyal, uygulamalı ve biçimsel bilimlerden olgusal bilgiye sahip olma gibi yetenekleri içeriyor. Ayrıca bir sorunu altta yatan beceriyi değiştirmeden zorlaştırabilecek veya kolaylaştırabilecek “dışsal” talepleri de izliyorlar; örneğin bir sorunun ne kadar sıradışı olduğu, ne kadar bilgi yığıldığı veya çoktan seçmeli olup olmadığı gibi. Her ölçek sıfır talepten başlayıp giderek daha zorlu seviyelere doğru uzanıyor ve kabaca bir üst seviye taşındığında, o maddeleri çözebilecek insan ya da AI sayısının önemli ölçüde azalması bekleniyor.

Makinelere görevlerin gerçekte ne talep ettiğini etiketlemeyi öğretmek
Figure 1
Figure 1.

18 ölçek boyunca binlerce soruyu elle puanlamak yalnızca uzman paneller için imkansız olduğundan, yazarlar gelişmiş dil modellerini anotatör olarak kullanıyor. Her ölçeğin her seviyesi için örnekler içeren ayrıntılı derecelendirme ilkeleri (rubrikler) yazıyorlar ve sonra bir modeli (GPT‑4o) 20 modern AI kıstasından çekilen 16.000’den fazla soruya talep seviyeleri ataması için kullanıyorlar. İnsan uzmanlar bir alt kümesini kontrol ediyor ve modelin etiketleriyle güçlü bir uzlaşma sağlanıyor. Bir kez etiketlendikten sonra, her kıstas gerçek anlamda hangi yeteneği ne kadar çalıştırdığını gösteren bir “talep profili” olarak görselleştirilebiliyor. Bu, birçok ünlü testin tasarımcılarının niyet ettiği şeyi ölçmediğini açığa çıkarıyor: bazıları akıl yürütmeye odaklandığını iddia ederken aslında nadir olgusal bilgiye dayanıyor, bazıları tek bir zorluk düzeyinde kümeleniyor ve neredeyse hiçbiri hem duyarlı (iyi bir seviye dağılımı kapsama) hem de spesifik (istemeden başka becerileri dahil etmeme) değil.

Ham skorlar yerine AI yetenek eğrilerini okumak

Aynı ölçeklerin görevlerde kullanılmasıyla bir sonraki adım, farklı AI sistemlerinin her boyuttaki artan taleplerle nasıl başa çıktığını görmektir. Yazarlar üç ana aileden 15 büyük dil modelini test ediyor ve her ölçek için görevler zorlaştıkça başarı olasılığına bakıyorlar. Bu noktalar arasına düzgün eğriler uydurmak, her model için her ölçekte bir “yetenek seviyesi” veriyor: diğer talepler daha yüksek olmadığında yaklaşık yarı başarı şansı sağlanan talep seviyesi. Ham doğruluktan farklı olarak, bu yetenek puanları kıstaslardaki kolay ve zor maddelerin özel karışımına bağlı değil. Ortaya çıkan profiller açık desenler gösteriyor: daha büyük modeller esas olarak olgusal bilgide gelişirken, özel “akıl yürütme” modelleri sayısal ve mantıksal düşünmede, ilgili bilgiyi belirlemede ve hatta diğer zihinleri ve sosyal durumları modellemede daha fazla kazanım sağlıyor. Eğriler ayrıca azalan getirileri de ortaya koyuyor: sadece daha fazla parametre eklemek sonunda yalnızca sınırlı yetenek artışları sağlıyor.

Talep profillerini kullanarak AI davranışını tahmin ve denetleme
Figure 2
Figure 2.

Artık hem görevler hem de sistemler aynı ölçekler üzerinde yer aldığından, yazarlar değerlendirmeyi bir tahmin problemi olarak ele alabiliyor. Sadece bir sorunun 18 talep seviyesini girdi olarak alan ve belirli bir AI’nın doğru cevap verme olasılığını çıktılayan basit makine öğrenimi “değerlendiricileri” eğitiyorlar. Bu değerlendiriciler, yalnızca tanıdık görevlerde değil tamamen yeni görevlerde ve eğitim dışı bırakılan kıstaslarda bile başarıyı çok doğru tahmin ediyor. Metin gömme veya büyük modellerin doğrudan ince ayarlanması gibi daha ağır karanlık kutu yaklaşımlarından daha iyi performans gösteriyorlar. Bu, her gelen sorguyu güvenli bir şekilde ele alma olasılığı en yüksek modele yönlendirmek veya hiçbir modelin güvenilir bölgesinin dışında kalan sorguları zarar oluşmadan önce reddetmek gibi pratik kullanımlara olanak tanıyor.

AI değerlendirmesi bilimine doğru bir adım

Yazarlar, genel talep ve yetenek ölçeklerinin AI’yi nasıl yargıladığımızı ve dağıttığımızı dönüştürebileceği sonucuna varıyor. Sürekli daha büyük, kısa ömürlü kıstasların ve saydam olmayan toplam puanların peşinden gitmek yerine, sistemlerin neden başarısız olduğunu açıklayan, alanlar arasında adil karşılaştırma yapan ve yeni görevlerde davranışlarını öngören sağlam, genişletilebilir bir ölçüm çerçevesi inşa edebiliriz. Fizikteki standart birimlerin hassas mühendisliği mümkün kılması gibi, paylaşılan, iyi tasarlanmış bir bilişsel ölçek seti önümüzdeki yıllarda AI’nin daha güvenli ve daha öngörülebilir kullanımını destekleyebilir.

Atıf: Zhou, L., Pacchiardi, L., Martínez-Plumed, F. et al. General scales unlock AI evaluation with explanatory and predictive power. Nature 652, 58–67 (2026). https://doi.org/10.1038/s41586-026-10303-2

Anahtar kelimeler: Yapay zeka değerlendirmesi, kıyaslama, büyük dil modelleri, öngörücü değerlendirme, yapay zeka güvenliği