Clear Sky Science · tr
FERMam: yüz ifadesi tanıma için hafif çift-kaynaklı ve çok-ölçekli füzyon çerçevesi
Neden bilgisayarlara yüz okumayı öğretmek önemli
Telefonlarımız, arabalarımız ve ev cihazlarımız söylediklerimizi anlamada iyileşiyor, ancak duygularımızı algılamakta hâlâ zayıf kalıyorlar. Yüz İfadesi Tanıma, makinelere fotoğraf veya videodaki yüzlerden insan duygularını "okuma" yeteneği kazandırmayı amaçlıyor. Bu, çevrimiçi dersleri daha tepkisel hâle getirebilir, sürücü izleme sistemlerini daha güvenli kılabilir ve sosyal robotlarla etkileşimi daha doğal yapabilir. Zorluk, bunu büyük veri merkezlerinin gücünden yoksun olan telefonlar, tabletler ve servis robotları gibi günlük cihazlarda doğru ve hızlı şekilde yapabilmek. Bu makale, birçok güncel sistemden çok daha az hesaplama gücü kullanarak ifadeleri güvenilir şekilde okuyacak biçimde tasarlanmış yeni bir yöntem olan FERMam'ı tanıtıyor.
Yüzü iki faydalı bakış açısından görmek
Mevcut sistemlerin çoğu yüzü iki yoldan birinde görür. Konvolüsyonel sinir ağları kırışıklıklar veya kaş şekilleri gibi yerel detayları yakalamada iyidir, ancak yüzün uzak bölgelerinin birbirleriyle nasıl ilişkili olduğunu görmekte zorlanırlar. Dönüştürücü (transformer) tabanlı modeller uzun menzilli ilişkileri iyi yakalar, ancak ağır ve yavaştır; küçük cihazlarda çalıştırmak zordur. FERMam, "çift-kaynaklı" tasarımıyla her iki dünyanın güçlü yönlerini birleştirir. Bir dal genel yüz görünümüne odaklanır ve güçlü ama verimli bir görüntü kodlayıcı kullanır. Diğer dal ise gözler, ağız ve diğer önemli bölgelerin çevresindeki ana yüz işaret noktalarını — landmark'ları — izler. Bu işaret noktaları, aydınlatma, cilt tonu veya arka plan değişse bile genellikle sabit kalan yüz geometrisini vurgular. Görünüm ve geometrinin harmanlanmasıyla FERMam, duyguların gerçekten ortaya çıktığı nüanslı bölgelere odaklanabilir.

Hem küçük detayları hem de büyük resmi yakalamak
Temel özellikler çıkarıldıktan sonra, FERMam bunları Conv-SSM adlı özel bir modülden geçirir. Bu modüldeki bir yol geleneksel bir konvolüsyonel ağ gibi davranarak göz ve ağız çevresindeki kenarlar ve dokular gibi ince detayları belirginleştirir. Diğer yol ise durum-uzay modelleri (state-space models) olarak bilinen yeni nesil modellerin bir üyesi olan Mamba varyantını kullanır. Görüntünün her parçasını her diğer parça ile karşılaştırmak yerine, Mamba yüz üzerinde birkaç yönde "tarama" yaparak özelliklerin yerden yere nasıl değiştiğine dair bir bellek oluşturur. Bu, kaş kalkması ile sıkı bir ağzın birlikte öfkeyi işaret etmesi gibi uzun menzilli ilişkileri yakalamayı sağlar ve aynı zamanda hesaplama miktarını kontrol altında tutar. Bu iki yolun çıktıları daha sonra ustaca karıştırılıp yeniden birleştirilir, böylece yerel ve küresel bilgiler etkileşime girebilir.
Farklı ölçekler arasında bilgiyi harmanlama
Duygular küçük bir bölgedeki ince değişimler olarak ya da tüm yüz genelinde geniş kaymalar olarak ortaya çıkabilir. Bunu ele almak için FERMam bir piramit füzyon yapısı kullanır. Bir dizi çözünürlükte — kaba ile ince arasında — özellik haritasının birkaç versiyonunu oluşturur ve her seviyeyi Adaptive State-space Feature Refinement adlı bir modül ile işler. Her ölçekte bu modül, hafif konvolüsyon yoluyla önemli yerel desenleri güçlendirir ve ardından uzak bölgeleri birbirine bağlamak için sadeleştirilmiş bir durum-uzay taraması kullanır. Dahili bir geçiş (gating) mekanizması, gözler ve ağız gibi ifade açısından zengin bölgelerden gelen sinyalleri artırabilirken arka plan veya kimliğe özgü dikkat dağıtıcı detayları aşağı çekebilir. İyileştirme sonrası, tüm ölçeklerden gelen bilgi tekrar bir araya getirilir ve son olarak hangi duygunun gösterildiğine karar vermek için küçük bir sınıflandırıcıya iletilen zengin ama kompakt bir özet oluşturulur.

Güçlü modellerle eşleşen çok daha az hesaplama
Yazarlar FERMam'ı üç büyük yüz ifadesi kıyas veri setinde test ettiler: RAF-DB, AffectNet ve FERPlus. Bu koleksiyonlar, değişken aydınlatma, yaş ve poz gibi gerçek dünya koşullarından alınmış on binlerce ila yüz binlerce yüz içerir. Bu veri setlerinde FERMam, ağır transformer mimarilerine dayanan birçok önde gelen yönteme yakın veya daha iyi doğruluk seviyelerine ulaştı. Yaygın kullanılan bir veri setinde performansı, yayımlanmış en iyi transformer tabanlı sistemle neredeyse eşleşirken, yaklaşık üçte bir ila yarısı kadar parametre ve çok daha az işlem kullanıyor. Pratikte bu, FERMam'ın iki kattan daha hızlı çalışabileceği, toplu modda saniyede çok daha fazla görüntü işleyebileceği ve yine de tanıma kalitesini yüksek tutabileceği anlamına geliyor. Ablasyon çalışmaları — tasarımın parçalarının çıkarıldığı kontrollü deneyler — işaret noktası dalından piramit füzyona kadar her bileşenin bu denge üzerinde anlamlı bir rol oynadığını gösteriyor.
Günlük teknolojiler için anlamı
Basitçe söylemek gerekirse, çalışma hem akıllı hem de tutumlu bir duygu-okuma sistemi inşa etmenin mümkün olduğunu gösteriyor. Yüzün iki görünümünü — nasıl göründüğü ve nasıl şekillendiğini — birleştirerek ve bilgilerin mekân ve ölçek boyunca akışını dikkatle düzenleyerek, FERMam güçlü tanıma başarısı elde ediyor ancak bir süperbilgisayar talep etmiyor. Bu, onu telefonlar, ev robotları, sürücü destek kameraları ve insan duygularına gerçek zamanlı olarak duyarlı biçimde yanıt vermesi gereken diğer cihazlar için umut verici bir aday yapıyor. Gelecek çalışmaların yoğun örtülülük (occlusion) veya çok düşük çözünürlüklü görüntüler gibi daha uç koşullarla başa çıkması gerekecek olsa da, FERMam pratik, verimli ve insanı daha iyi tanıyan hesaplamaya giden yolu işaret ediyor.
Atıf: Gao, C., Ji, X., Zhang, Q. et al. FERMam: a lightweight dual-source and multi-scale fusion framework for facial expression recognition. Sci Rep 16, 13826 (2026). https://doi.org/10.1038/s41598-026-44396-6
Anahtar kelimeler: yüz ifadesi tanıma, duygu-bilinçli yapay zeka, hafif derin öğrenme, durağan durum modelleri, insan–bilgisayar etkileşimi