Clear Sky Science · tr
Gözlerin Zihnini Okuma testi kullanılarak multimodal büyük dil modellerinin etnikler arası duygu tanıma yeteneklerinin değerlendirilmesi
Günlük yaşam için bunun önemi
Bir bilgisayar programının bir kişinin gözlerine bakarak ne hissettiğini tahmin edebildiğini—çoğu insanınkinden daha doğru şekilde—düşünün. Bu çalışma, bu tür sistemlerin farklı etnik kökenlerden insanlara adil davranıp davranamayacağını sorguluyor. Yapay zeka (YZ) araçları sağlık, eğitim ve günlük uygulamalara girerken, farklı gruplara eşit muamele edip etmediklerini bilmek güven, güvenlik ve etik açısından kritik önem taşıyor.

Gözlerde duyguları aramak
Araştırmacılar, “Gözlerdeki Zihni Okuma” olarak bilinen iyi tanınmış bir psikoloji testine odaklandı. Bu görevde yüzün yalnızca göz bölgesi gösterilir ve izleyici gözlerin hangi duygu veya zihinsel durumu ifade ettiğini seçmelidir. Testin üç versiyonu vardır; her biri Beyaz, Siyah veya Koreli bireylerin fotoğraflarını kullanır. İnsanlar genellikle başka bir etnik grubun yüzlerindeki duyguları değerlendirmekte daha zorlanır; bu örüntü “öte ırk etkisi” olarak bilinir. Çalışma, gelişmiş YZ sistemlerinin benzer bir zayıflık gösterip göstermediğini ya da bu farklı yüz setlerinde duyguları eşit derecede tanıyıp tanımadığını sordu.
Üç YZ sistemini teste sokmak
Araştırma ekibi, hem görüntüleri hem metni işleyebilen üç popüler multimodal büyük dil modelini değerlendirdi. Eski bir GPT-4 tabanlı model, daha yeni bir GPT-4o tabanlı model ve Claude 3 Opus adlı rekabetçi bir sistemi test ettiler. Her model, araştırmacıların doğruluk ve zaman içindeki tutarlılığı kontrol edebilmesi için üç test versiyonunun tamamını iki kez tamamladı. YZ modelleri her göz görüntüsünü dört olası cevapla gördü ve tıpkı insan test katılımcısı gibi birini seçmek zorundaydı. Bilim insanları daha sonra YZ puanlarını aynı testleri daha önce almış büyük insan gruplarının sonuçlarıyla karşılaştırdı.
Makinelerin ne kadar iyi olduğu
Daha yeni GPT-4o modeli öne çıktı. Beyaz yüzler için maddelerin yaklaşık %83’ünü, Siyah yüzler için %94’ünü ve Koreli yüzler için %86’sını doğru yanıtladı. Bu puanlar, testleri alan insanların performansıyla karşılaştırıldığında yaklaşık olarak üst %85 ila %94’lük dilimde yer almasını sağladı; yani bu testleri alan çoğu insandan daha iyi performans gösterdi. Önemli olarak, başarısı üç etnik grup arasında benzerdi; bu da insanların sıkça gösterdiği türde bir etnik önyargıyı sergilemediğini düşündürüyor. Eski GPT-4 modeli rastgele tahminden daha iyi performans gösterdi ancak ortalama insan seviyelerine daha yakındı, Claude 3 Opus ise tahmin yapıyormuş gibi olasılığa yakın sonuçlar verdi.

YZ için kolay ve zor olanlar
Sadece toplam puanların ötesine geçmek için yazarlar modellerin hangi tür duyguları iyi ya da kötü işlediğini inceledi. Sistemler genel olarak endişeli, huzursuz veya düşünceli olmak gibi içsel durumları yüksek doğrulukla tanıma eğilimindeydi. Buna karşılık, oyunbaz, arkadaşça veya flörtöz olmak gibi kişilerarası anlam taşıyan sosyal açıdan zengin olumlu ifadelerle daha çok zorlandılar. Daha yeni GPT-4o sistemi bu hataları diğerlerine göre daha fazla azalttı; bu, her yeni YZ neslinin önceki modellerin kaçırdığı ince sosyal sinyalleri yakalamada daha iyi hale gelebileceğine işaret ediyor.
Bu insanların başına ne gelebilir
Bulgular hem heyecan verici olasılıklar hem de önemli uyarılar doğuruyor. Bir yandan, yüzlerden duygu okuyabilen ve birçok insandan daha iyi veya en azından eşit düzeyde performans gösteren—ve bunu etnik gruplar arasında benzer şekilde yapan—bir sistem bir gün psikologlara, doktorlara veya öğretmenlere sosyal ipuçları hakkında daha istikrarlı ikinci bir görüş sunarak yardımcı olabilir. Öte yandan, göz testi kendi başına ciddi bilimsel sınırlamalara sahiptir ve beden dili, ses tonu ve bağlama bağlı olarak gerçek yaşam sosyal anlayışını yansıtmayabilir. Yazarlar, bu sonuçların YZ’nin gerçek empatiye sahip olduğunu ya da diğer bağlamlarda önyargıdan arındığını kanıtlamadığını vurguluyor. Bunun yerine çalışma, dar ve kontrollü bir görev olan göz bölgesine odaklanan erken bir kıstas sunuyor: en azından bir modern YZ çok doğru ve farklı etnik gruplar arasında göreli olarak dengeli görünüyor, ancak bu tür araçların gerçek dünya kararlarını etkilemesi için çok daha fazla araştırma gerekiyor.
Atıf: Refoua, E., Elyoseph, Z., Piterman, D. et al. Evaluation of cross-ethnic emotion recognition capabilities in multimodal large language models using the reading the mind in the eyes test. Sci Rep 16, 9975 (2026). https://doi.org/10.1038/s41598-026-39292-y
Anahtar kelimeler: duygu tanıma, yapay zeka, sosyal biliş, etnikler arası önyargı, ruh sağlığı