Clear Sky Science · tr

Varyasyonel çıkarım yoluyla yüz ifadesi tanıma

· Dizine geri dön

Yüzlerden Duyguları Okumak

Yüzlerimiz duygularımızı sürekli iletir, ancak bu sinyaller nadiren basittir. Bir gülümseme kaygıyı gizleyebilir ve “nötr” bir ifade sıkılma ile tahrişi karıştırıyor olabilir. Bu çalışma, mevcut yüz ifadesi araçlarından daha doğru şekilde bu tür ince, karışık duyguları okumayı amaçlayan yeni bir yapay zeka (YZ) sistemi olan POSTER-Var’ı tanıtıyor; bu, insan–bilgisayar etkileşiminden ruh sağlığı izlemeye kadar pek çok alanda gelişme sağlayabilir.

Duygular Neden Sadece Açık veya Kapalı Değildir

Çoğu mevcut yüz ifadesi tanıma sistemi duyguları düzgün, ayrı kutular olarak ele alır: mutlu, üzgün, kızgın vb. Oysa psikoloji, ifadelerin temel duyguların karışımları olduğunu ve farklı yoğunlukların aynı yüz üzerinde aynı anda ortaya çıktığını gösterir. Geleneksel YZ modelleri genellikle her görüntüyü tek bir katı etiket içine zorlar; belirsizliği ve duyguların sürekliliğini dikkate almaz. Bu, aydınlatma, poz ve insan etiketlerindeki tutarsızlıklar gibi gürültülerin olduğu gerçek dünya koşullarında modelleri kırılgan hale getirir. Yazarlar, gelecekteki sistemlerin bir yüzün aynı anda birkaç duyguyu farklı yoğunluklarla işaretleyebileceğini kabul etmesi ve bilgisayarların evet-hayır kararları yerine olasılıklar üzerinden akıl yürütmesi gerektiğini savunuyor.

Figure 1
Figure 1.

Modelin Belirsizliği Kucaklamasına İzin Vermek

Bu dağınık gerçeğe daha iyi uymak için ekip, varyasyonel çıkarım adı verilen modern olasılıksal modelleme tekniğini temel alıyor. Her duygu için tek bir sabit puan üretmek yerine, POSTER-Var yüz özelliklerini her duygunun genellikle çan eğrisi biçiminde bir olasılık dağılımıyla temsil edildiği bir “gizil uzay”a eşliyor. Eğitim sırasında sistem, öğrenilen bu dağılımlardan örnekler çekerek her yüz için mümkün yorumların bir aralığını keşfetmeye teşvik ediliyor. Test zamanında ise daha kararlı tahminler yapmak için bu dağılımların merkezlerini kullanıyor. Önemli olarak, POSTER-Var önceki varyasyonel tasarımlarda kullanılan ek kod çözme ve tam bağlı katmanları kaldırıyor; olasılıksal temsili son karar sinyali olarak ele alıyor. Bu sadeleştirilmiş “Varyasyonel Çıkarım Tabanlı Sınıflandırma Kafası” (VICH), modelin belirsizliği nicelendirirken verimli ve doğru kalmasına izin veriyor.

Yüzü Birden Çok Ölçekte Görmek

İfadeleri tanımak ayrıca yüzün farklı bölgelerine ve farklı detay seviyelerine bakmayı gerektirir: ağız eğrisi, gözlerin şekli ve genel konfigürasyon hepsi önem taşır. POSTER-Var, bu çok ölçekli özelliklerin nasıl birleştirildiğini geliştirerek güçlü bir önceki sistemi (POSTER++) genişletiyor. Standart bir görüntü omurgası ile göz köşeleri ve ağız kenarları gibi ana noktaları izleyen bir yüz işaretleyici algılayıcıdan gelen bilgileri kaynaştırmak için birkaç dikkat (attention) mekanizması kullanıyor. Bir “katman gömme” (layer embedding), her özellik haritasını işlem piramidindeki konumu ve anlamsal düzeyiyle işaretleyerek ağın hangi ayrıntıların nereden geldiğini anlamasına yardımcı oluyor. Doğrusal olmayan dönüşümler ve geliştirilmiş bir kanal-dikkat bloğu daha sonra bu özellikleri yeniden dengeleyerek, ifadeler için en bilgilendirici olanları güçlendirir; arka plan karmaşası veya kimliğe özgü tuhaflıklar gibi dikkat dağıtıcıları baskılar.

Figure 2
Figure 2.

Sistemi Teste Sokmak

Araştırmacılar POSTER-Var’ı RAF-DB, AffectNet ve FER+ olmak üzere üç yaygın kullanılan gerçek dünya veri kümesinde değerlendirdiler. Bu koleksiyonlar, kontrolsüz koşullarda yakalanmış yüzlerden oluşan yüz binlerce görüntü içerir; her biri birkaç temel duygu etiketinden biriyle işaretlenmiştir. Tüm kıyaslamalarda POSTER-Var ya mevcut en iyi yöntemlerle eşleşti ya da onları geride bıraktı. Örneğin RAF-DB’de yaklaşık %93, FER+’de yaklaşık %92 doğruluğa ulaştı ve AffectNet’in 7 sınıflı ve 8 sınıflı versiyonlarında hafif iyileşmeler gösterdi. Bileşenlerin tek tek kaldırıldığı ablation (kaldırma) deneyleri, hem katman gömme hem de varyasyonel kafanın performansa belirgin katkıda bulunduğunu; özellikle varyasyonel bileşenin daha zor, dengesiz veri kümelerinde yardımcı olduğunu gösterdi. Dikkat haritalarının görselleştirmeleri POSTER-Var’ın temel modele göre daha geniş ve daha anlamlı yüz bölgelerine odaklandığını ortaya koydu ve öğrenilmiş duygu dağılımlarının grafikleri örneğin “üzgün” ile “nötr”ü belirsiz durumlarda daha iyi ayırdığını gösterdi.

Gerçek Dünyadaki Uygulamalar İçin Ne Anlama Geliyor

Basitçe söylemek gerekirse, POSTER-Var makineleri yüz ifadelerini trafik ışıkları gibi katı işaretler olarak değil, hava tahminleri gibi ele almayı öğretiyor: ana bir “güneşli” ruh hali olabilir ama dağınık “bulutlu” ipuçları da bulunabilir ve tahmin belirsizliği kabul etmelidir. Duygular üzerinde tek bir tahmin yerine tam dağılımları modelleyerek sistem, gürültülü etiketlere ve ince, karışık ifadelere karşı daha dayanıklı hale geliyor. Çalışma, bu tür olasılıksal yaklaşımların duygu farkındalıklı teknolojilerin bir sonraki neslini destekleyebileceğini; sanal asistanları, sosyal robotları ve davranış araştırma araçlarını yüzlerimizin ancak kusurlu biçimde ortaya koyduğu karmaşık duygusal yaşamlara daha duyarlı kılabileceğini öne sürüyor.

Atıf: Lv, G., Zhang, J. & Tsoi, C. Facial expression recognition via variational inference. Sci Rep 16, 7323 (2026). https://doi.org/10.1038/s41598-026-38734-x

Anahtar kelimeler: yüz ifadesi tanıma, duygu yapay zekası, olasilıksal modelleme, varyasyonel çıkarım, bilgisayarlı görü