Clear Sky Science · tr
Duygu tanıma testlerinde kolektif ve artırılmış zeka yapay zekayı geride bırakıyor
Günlük yaşam için bunun önemi
Bir bakışta birinin gözlerinden duyguları okumada kim daha iyidir: insanlar mı yoksa makineler mi? Yapay zekâ sistemleri okullara, kliniklere ve işyerlerine girerken, birçok araç yüzlerden ruh hallerini ve zihinsel durumları değerlendirme vaat ediyor. Bu çalışma, güçlü bir yapay zekâ modelinin laboratuvar tarzı duygu testlerinde çoğu bireyi yenerken, bağımsız çalışan insan gruplarının hâlâ önde olduğunu ve en iyi sonucun insan ve makine yargıları birleştirildiğinde ortaya çıktığını gösteriyor.

Duygu okuma testleri nasıl çalışıyor
Araştırmacılar, insanların yalnızca göz bölgesinin fotoğraflarından his ve düşünceleri çıkarmasını isteyen iki yaygın laboratuvar görevine odaklandı. Her testte izleyiciler bir görüntü görüyor ve kişinin zihinsel durumuna en uygun dört kısa kelimeden birini seçmek zorunda kalıyor. Bir test çoğunlukla tek bir etnik gruptan alınmış siyah beyaz fotoğraflar kullanırken, daha yeni sürüm daha çeşitli arka planlardan renkli görüntüler içeriyor ve daha basit bir kelime dağarcığı kullanıyor. On yıllık araştırma, bu testlerdeki puanları sosyal beceriler ve klinik sonuçlarla ilişkilendiriyor; ancak bunların gerçek dünyadaki duygusal yaşamın kusursuz yansımaları olmadığı da biliniyor.
Önde gelen bir yapay zekâ bireysel insanlarla nasıl kıyaslanıyor
Ekip, görüntüleri ve metni analiz edebilen GPT-5 mini adlı güçlü bir multimodal dil modelini değerlendirdi. Modeli hiçbir örnek gösterilmeden her test öğesi için 100 kez çalıştırdılar ve bunun temel performansını ölçtüler. 27.000’den fazla insan katılımcı verisi ile karşılaştırıldığında, GPT-5 mini her iki testte de yaklaşık yüzde 83 doğru yanıt verdi; bu, insan ortalamalarının sırasıyla yüzde 71 ve 63 olduğu durumların açıkça üzerindeydi. İnsan yeteneğinin tüm aralığına ilişkin ayrıntılı analizler, yapay zekânın neredeyse tüm düşük ve orta puan alan insanları geride bıraktığını gösterdi. Ancak daha eski testte en iyi insan puanlayanlar modelle eşitlenmiş veya modeli hafifçe geçmişken, daha yeni çok ırklı testte yapay zekâ üst uçta bile avantajını korudu.
Neden insan kalabalıkları makine kalabalıklarını yener
Ardından araştırmacılar birçok ayrı cevabın birleştirildiğinde ne olduğunu inceledi. İnsan setleri veya yapay zekâ çalıştırmaları setlerinden tekrar tekrar örneklem yaparak kalabalıklar simüle ettiler ve en yaygın cevabın kazandığı basit bir kural olan çoğunluk oylamasını kullandılar. İnsan kalabalıkları boyutla keskin bir şekilde iyileşti; 100 kişinin cevapları birleştirildiğinde bir testte doğruluk neredeyse mükemmele yaklaştı. Buna karşılık, yapay zekâ kalabalıkları daha fazla çalıştırma eklemekten çok az kazanç sağladı. Aynı modele yapılan farklı çağrılar genellikle aynı hataları tekrar etme eğilimindeydi, bu yüzden grup kendi hatalarını düzeltemiyordu. Etkili olarak bu, aynı uzmana aynı soruyu birçok kez sormaya benziyordu; çeşitli yaşam deneyimlerinden yararlanmaktan ziyade.
İnsanlar ve yapay zekâ birlikte en iyi sonucu veriyor
Son adım insan ve yapay zekâ oylarını karıştırmaktı. Araştırmacılar, üyelerin çoğu insan olan ve daha küçük bir payın yapay zekâ çalıştırmalarından oluştuğu hibrit kalabalıklar kurdular; her iki taraf da bağımsız olarak cevap katkısı yaptıktan sonra birleştirildi. Bu artırılmış gruplar tutarlı şekilde hem yalnızca insanlardan hem de yalnızca yapay zekâdan oluşan kalabalıkları geride bıraktı. Daha yeni, daha kapsayıcı testte ne insanlar ne de yapay zekâ tek başına yaklaşık yüzde 95 doğruluğun ötesine geçebildi, ancak karışık gruplar yaklaşık yüzde 98’e ulaştı ve bunu daha küçük kalabalık boyutlarıyla başardı. Bu örüntü, insanların ve makinelerin farklı türde hatalar yapma eğiliminde olduğunu; dolayısıyla güçlü yönlerinin birbirini doğal olarak tamamladığını gösteriyor.

Duygu yapay zekâsı kullanımı için bunun anlamı
Çalışma, yapay zekâyı “ortalama bir insan” ile karşılaştırmanın yanıltıcı olabileceği sonucuna varıyor; çünkü bu, kolektif insan yargısının gücünü göz ardı eder. GPT-5 mini gibi güçlü bir model dar laboratuvar testlerinde çoğu bireyi geride bırakabilir, yine de makinelerin aynı hataları tekrarlaması durumunda farklı insanların bir arada neler başarabileceğinin gerisinde kalabilir. Yüzlerden duygu okumak gibi görevler için en güvenilir yaklaşım, yapay zekâyı insanların yerine koymak değil, insan içgörüsünü makine tutarlılığı ile eşleştiren ve insanları döngüde tutan dikkatle tasarlanmış sistemler kurmaktır.
Atıf: Akben, M., Gude, V. & Ajjan, H. Collective and augmented intelligence outperform artificial intelligence on emotion recognition tests. Sci Rep 16, 14823 (2026). https://doi.org/10.1038/s41598-026-45331-5
Anahtar kelimeler: duygu tanıma, kolektif zeka, insan-yapay zeka işbirliği, multimodal yapay zekâ, sosyal biliş