Clear Sky Science · tr
FaceScanPaliGemma yüz öznitelik tanıma için çok ajanlı görsel dil modelleri
Neden Daha Akıllı Yüz Okuma Önemli
Her gün kameralar, sosyal medya paylaşımlarında, çevrimiçi toplantılarda ve kamusal alanlarda sayısız insan görüntüsü kaydediyor. Sahne arkasında, bilgisayar sistemleri giderek bu yüzleri "okumaya" çalışıyor; yaş, ruh hali ve diğer özellikler hakkında tahminlerde bulunuyor. Bu tür araçlar erişilebilirlik yardımcıları ve sağlık araştırmaları gibi yararlı hizmetleri destekleyebilir, ancak aynı zamanda adalet, mahremiyet ve yanlılık konusunda derin sorular da doğurur. Bu makale, bilgisayarların yüzleri okuma yeteneğini geliştirmeyi hedeflemekle kalmayıp kimlerin dışlanabileceğine veya haksız muamele görebileceğine daha fazla dikkat eden yeni bir yapay zeka sistemi olan FaceScanPaliGemma’yı tanıtır.
Yüz Okumada Yeni Bir Takım Tabanlı Yaklaşım
Geçmişteki çoğu yüz-analiz sistemi, ırkı, cinsiyeti, yaş grubunu ve duyguyu bir görüntüden aynı anda çıkarmaya çalışan tek, büyük bir modele dayanıyordu. FaceScanPaliGemma farklı bir yol izliyor. Bir arada çalışan, her biri tek bir göreve odaklanan daha küçük, uzmanlaşmış modellerden oluşan bir “takım” kullanıyor. Bu modeller görsel–dil tasarımına dayanıyor; yani hem bir resmi inceleyebiliyor hem de kullanıcının ne bilmek istediğine dair yazılı bir yöneltmeyi (prompt) işleyebiliyor. Örneğin sistem, gördüklerini ve kendisine sorulanı birleştirerek “Bu resimdeki çocuğun yaş grubu ve duygusu nedir?” gibi soruları yanıtlayabiliyor.

Çok Ajanlı Sistem Nasıl Çalışıyor
FaceScanPaliGemma’nın merkezinde, kullanıcının isteğini okuyup bunu adımlara ayıran bir analiz ajanı bulunuyor. Soru kalabalık bir sahnede belirli bir kişiden söz ediyorsa—örneğin “top tutan çocuk” veya “Orta Doğulu kadın”—analiz ajanı önce ilgili yüzleri bulmak için bir yüz algılama modelini çağırıyor. Ardından kırpılmış yüzleri ırk, cinsiyet, yaş grubu veya duygu gibi tek bir alana odaklanan bir veya daha fazla uzman ajana iletiyor. Her uzman, Google’ın PaliGemma görsel–dil modelinin etiketli yüz görüntüleri üzerinde ince ayar yapılmış bir versiyonudur ve tek görevi konusunda yüksek doğruluk elde edecek şekilde eğitilmiştir. Analiz ajanı sonunda parçaları, orijinal isteğe uygun bir cevapta birleştirir.
Daha Adil ve Büyük Yüz Veri Kümeleri Üzerine İnşa Etme
Bu ajanları eğitmek ve test etmek için araştırmacılar iki büyük kamu veri kümesine dayandı. Birincisi, FairFace, birkaç ırk grubuna dengeli şekilde dağıtılmış yüzlerden oluşan yüz binden fazla görüntü ve cinsiyet ile ayrıntılı yaş aralıkları etiketlerini içeriyor. Bu tasarım, beyaz yüzler gibi belirli gruplardan çok daha fazla örnek bulunması yaygın sorununu azaltmaya yardımcı oluyor. İkinci veri kümesi AffectNet, mutluluktan küçümsemeye kadar sekiz temel yüz ifadesiyle etiketlenmiş yüz binlerce görüntüyü, web’den çoklu dillerde toplayarak barındırıyor. PaliGemma modellerini bu veri kümeleri üzerinde ince ayar yaparak, ekip genel amaçlı bir görsel–dil aracını ırk, cinsiyet, yaş grubu ve duygu tanıma için dört odaklanmış uzmana dönüştürdü.
Sistemin Performansı Ne Kadar İyi
Kapsamlı testlerde FaceScanPaliGemma, GPT-4o ve Gemini gibi tanınmış genel amaçlı yapay zeka sistemleriyle ve yalnızca görüntü işleme temelli geleneksel derin öğrenme modelleriyle karşılaştırıldı. Irk tanımada, yeni sistem birkaç ırksal kategoriyi gruplandırırken yaklaşık %81 doğruluk elde etti; bu, önceki görsel sistemlere ve kutudan çıktığı gibi görsel–dil modellere göre belirgin bir artış. Cinsiyet için yaklaşık %96, daha geniş yaş grupları için %80 civarında doğruluk sağladı; yine güçlü karşılaştırma noktalarını eşledi veya aştı. Duygu tanıma daha zorlu çıktı: burada FaceScanPaliGemma yaklaşık %59 doğruluk elde etti—önceden eğitilmiş görsel–dil modellerinden ve bazı klasik yöntemlerden daha iyi, ancak milyonlarca görüntü üzerinde eğitilmiş en iyi duygu-odaklı sistemlerin gerisinde. Yazarlar ayrıca performansın farklı demografik gruplar arasında nasıl değiştiğini inceledi ve cinsiyet için küçük, belirli ırklar ve ince ifadeler için daha büyük farklar buldu; bunu ise görünüşe dayalı özellikleri değerlendirme zorluğuna bağladılar.

Adalet, Riskler ve Gerçek Dünya Kullanımı
Yüz öznitelik tanıma kimlik, mahremiyet ve ayrımcılık konularına dokunduğu için yazarlar etik konulara özel önem veriyor. FaceScanPaliGemma’nın kamu araştırma veri kümeleri üzerinde eğitildiğini ve modellerin kitle gözetimi veya otomatik karar verme gibi alanlarda kötüye kullanımına karşı açık rehberlik ile serbest bırakıldığını vurguluyorlar. Çok ajanlı tasarım da yardımcı oluyor: ırk, cinsiyet, yaş ve duyguyu ayrı modüllere ayırarak, her birinde yanlılığı bağımsız olarak ölçmeyi ve azaltmayı kolaylaştırıyor. Yine de sistemin sınırları var. Ağırlıklı olarak ölçüt veri kümeleri üzerinde test edildi, gerçek dünyadaki karmaşık görüntüler üzerinde değil; ayrıca kararlarına nasıl vardığını henüz açıklamıyor—bunlar gelecek çalışmalar için önemli iki alan.
İleriye Dönük Anlamı
Basitçe söylemek gerekirse, bu çalışma, koordineli bir şekilde çalışan daha küçük, uzmanlaşmış yapay zeka modelleri takımının dikkatle seçilmiş eğitim verileriyle yönlendirildiğinde birçok büyük, tek model sisteminden daha doğru ve esnek biçimde yüzleri okuyabileceğini gösteriyor. FaceScanPaliGemma, birçok devasa modele göre çalıştırılması daha hızlı ve daha ucuz olmasına rağmen birkaç önemli görevde onlarla rekabet ediyor ya da onları geçiyor. Bununla birlikte araştırma, insan özelliklerini yüzlerden okumaya çalışmanın belirsiz ve etik açıdan sorunlu olmaya devam ettiğini, özellikle duygular ve görsel olarak belirsiz gruplar için böyle olduğunu vurguluyor. Yazarlar, gelecekteki ilerlemenin daha iyi eğitim verileri ve kademeli öğrenme gibi teknik gelişmeleri adalet, mahremiyet ve şeffaflık etrafında daha güçlü güvencelerle eşleştirmesi gerektiğini savunuyorlar ve bu tür sistemler geniş çapta dağıtılmadan önce bunların sağlanmasını öneriyorlar.
Atıf: AlDahoul, N., Tan, M.J.T., Kasireddy, H.R. et al. FaceScanPaliGemma multi-agent vision language models for facial attribute recognition. Sci Rep 16, 10246 (2026). https://doi.org/10.1038/s41598-026-39584-3
Anahtar kelimeler: yüz öznitelik tanıma, görsel dil modelleri, çok ajanlı Yapay Zeka, fairface veri kümesi, duygu tanıma