Clear Sky Science · tr

SiaCon-DetNet ve HySHO: duygu bilincine sahip yüz tanıma için ileri düzey bir dönüştürücü tabanlı derin öğrenme çerçevesi

· Dizine geri dön

Bilgisayarlara duyguları öğretmenin önemi

Görüntülü görüşmelerden sanal öğretmenlere ve sağlık uygulamalarına kadar makinelerle ekranlar aracılığıyla giderek daha sık karşılaşıyoruz. Yine de bu sistemlerin çoğu hâlâ duygusal olarak “sağır”: bizim kafamız karışık mı, stresli mi yoksa memnun mu olduğunu göremiyorlar. Bu makale, insan yüz ifadelerini önceki yöntemlerden daha doğru ve daha verimli şekilde okuyan yeni bir yapay zeka çerçevesi sunuyor; amaç, dijital araçları günlük hayatta daha anlayışlı, adil ve yardımcı hale getirmek.

Yüzlerin makinelere açtığı duygusal pencere

Yüzümüz, hissettiklerimiz hakkında sürekli bilgi yayar; çoğu zaman sözlerimizden daha dürüstçe. Gülümsemeler, kaş çatmalar, genişlemiş gözler ve ince kas seğirmeleri, insanların konuşmaları yönlendirmesine, güven inşa etmesine ve sıkıntıyı tespit etmesine yardımcı olur. Psikoloji, sinirbilim ve bilgisayar bilimi araştırmacıları bu ipuçlarını bilgisayarlara öğretmeye uzun zamandır çalışıyor; bu alana yüz duygu tanıma deniyor. Bu teknoloji zaten öğrenci dikkatini izleyen eğitim platformlarında, oyuncunun ruh haline göre uyum sağlayan oyun sistemlerinde, ağrı veya depresyonu takip eden tıbbi araçlarda ve huzursuzluk işaretlerini izleyen güvenlik sistemlerinde kullanılıyor. Ancak gerçek dünya koşulları karmaşıktır: aydınlatma değişir, yüzler kısmen kapalı olabilir ve ifadeler bireyler ve kültürler arasında farklılık gösterir; bu da güvenilir duygu okumasını zorlaştırır.

Figure 1
Figure 1.

Neden eski duygu sistemleri yetersiz kalıyor

Erken bilgisayar sistemleri, kırışıklıklar, kenarlar veya ağız ve göz şekli gibi basit özellikleri ölçen elle tasarlanmış kurallara dayanıyordu. Bunlar poz, aydınlatma veya bireysel farklılıklarda zorlanıyordu. Derin öğrenme, sinir ağlarının yüz görüntülerinden faydalı örüntüleri otomatik olarak öğrenmesine izin vererek ilerleme sağladı, ancak yaygın mimariler hâlâ kör noktalar barındırıyordu. Konvolüsyonel ağlar yerel detayları tespit etmekte başarılıdır, ancak örneğin gözler ve ağzın birlikte hareket ettiği karışık ifadeler gibi yüzün uzak bölgeleri arasındaki bağlantıları kurmakta güçlük çekerler. Yeni dönüştürücü modeller bu uzun menzilli ilişkileri yakalar, ancak ağır, çok veri gerektiren ve çok ince, düşük seviyeli detayları yakalamada ideal olmayan yönleri olabilir. Mevcut birçok sistem ayrıca yüzler eğitildikleri verilerin ötesine geçtiğinde kötü genelleme yapmaya eğilimliyken, yüzlerce iç ayarın dikkatli elle ayarlanmasını gerektirir.

İkiz-gözlü ve dikkat odaklı yeni yaklaşım

Yazarlar SiaCon-DetNet adlı hibrit bir ağ öneriyor; bu ağ birkaç fikrin güçlü yönlerini birleştiriyor. İlk olarak, birbirini gören eşleşmiş yüz görüntülerini gören iki özdeş işlem dalı kullanan bir Siamese (ikiz) yapı ile hangi duygunun diğerinden gerçekten ayırt edildiğini öğrenir. Bu ikiz tasarım, örneğin korku ile şaşkınlık gibi benzer kasları içerebilen ince farkları modelin fark etmesine yardımcı olur. Her dal içinde konvolüsyonel katmanlar kaş eğrileri veya ağız gerilimi gibi ince dokuları ve şekilleri yakalar. Bunun üstüne yerleştirilen dönüştürücü tabanlı bir modül, uzak yüz bölgelerinin nasıl ilişkilendiğini öğrenen ve en bilgilendirici bölgelere odaklanan bir dikkat spotu gibi çalışır. Bu bileşenler birlikte, yüz kısmen gizlenmiş veya düzensiz aydınlatılmış olsa bile, her ifadenin zengin, bağlam farkında bir resmini oluşturmayı sağlar.

Daha keskin ve hızlı öğrenme için doğadan ilham alan ayar

Güçlü bir model tasarlamak işin yarısıdır; diğer yarısı da modelin hızlı öğrenmesi ve aşırı uyum (overfitting) yapmaması için uygun şekilde ayarlanmasıdır. Bunu ele almak için makale, HySHO adında “biyodan ilham alınmış” bir optimizasyon şeması tanıtıyor; bu şema bir avcı kuşu (kuzey şahini) ve bir çöl kedisi davranışlarını modelleyen stratejileri karıştırır. Bir bölüm öğrenme hızları ve filtre boyutları gibi geniş ayar aralıklarını keşfeder; böylece sistem kötü çözümlerde takılıp kalmaz. Diğer bölüm ise ümit vaat eden bölgelerde ince ayarlar yaparak yakınsamayı hızlandırır. Bu dinamik ayarlama, modelin belirli bir veri kümesinde yüz ifadelerinin ne kadar değişken olduğuna bağlıdır; böylece ince, karışık veya gürültülü duygularla karşılaşıldığında model kendini uyarlayabilir. Sonuç olarak eğitim hem daha hızlı hem de daha dayanıklı hale gelir; bu da gerçek zamanlı veya yakın-gerçek zamanlı uygulamaları destekler.

Figure 2
Figure 2.

Sistemi teste sokmak

Çerçevelerini değerlendirmek için araştırmacılar, boyut ve zorluk bakımından farklılık gösteren üç yaygın kullanılan duygu veri kümesi üzerinde test ettiler. Bu koleksiyonlar, öfke, korku, mutluluk, üzüntü, tiksinti, şaşkınlık ve nötrlük gibi birkaç temel duyguya ilişkin sahnelenmiş ve daha doğal ifadeleri içerir. Yeni sistem, en bilinen kıyaslama setinde yaklaşık yüzde 99 doğruluğa ulaşırken, neredeyse tüm duygu kategorilerinde eşit derecede etkileyici hassasiyet, geri çağırma ve F1 skoru korudu. Önemli olarak, bu başarıyı birçok tanınmış görüntü mimarisine dayanan popüler derin öğrenme modellerinden daha hızlı eğitimle gerçekleştirdi. Her veri kümesinde farklı duyguların nasıl ilişkili olduğuna dair analizler, modelin öfke ile tiksinti ya da korku ile üzüntü gibi zor çiftleri performansta büyük düşüşler olmadan ele aldığını gösterdi; bu da modelin ifadelerin ince yapısını ezberlemek yerine gerçekten yakaladığını düşündürüyor.

Günlük teknoloji için anlamı

Basitçe söylemek gerekirse, çalışma bir yapay zekânın yüzlere daha insan benzeri bir şekilde bakacak şekilde tasarlanabileceğini gösteriyor—ince farkları karşılaştırmak, tüm yüz bağlamını anlamak ve öğrenme stratejisini anında ayarlamak. Önerilen SiaCon-DetNet ve HySHO çerçevesi son derece yüksek doğruluk sunarken nispeten hafif ve hızlı eğitilebilir kalıyor; bu da onu ruh sağlığı taramaları, etkileşimli öğretim, müşteri hizmetleri ve iletişim zorluğu yaşayan kişiler için yardımcı teknolojiler gibi geleceğin araçları için güçlü bir aday yapıyor. Mahremiyet, rıza ve adalet gibi önemli sorular hâlâ yanıtsız kalsa da bu çalışma duygu farkındalıklı sistemleri, tahminden ziyade duyarlılıkla yanıt verebilecek kadar güvenilir okumaya yaklaştırıyor.

Atıf: M, S., M, U., K, T. et al. SiaCon-DetNet with HySHO: a cutting-edge transformer-based deep learning framework for emotion-aware facial recognition. Sci Rep 16, 14131 (2026). https://doi.org/10.1038/s41598-026-41890-9

Anahtar kelimeler: yüz duygu tanıma, derin öğrenme, dönüştürücü modeller, insan–bilgisayar etkileşimi, duygusal hesaplama