Clear Sky Science · tr
İnsan-robot etkileşiminde insan duygularının tanınması için yeni bir çok-modüllü sinir ağları stratejisi
Robotlara Duygularımızı Okumayı Öğretmek
Robotlar evlere, hastanelere ve sınıflara girdikçe, yalnızca talimatları takip etmeleri artık yeterli değil. Gerçekten yardımcı olabilmeleri için nasıl hissettiğimizi algılamaları ve davranışlarını buna göre uyarlamaları gerekir—sinirli bir hastayı rahatlatmak, üzgün bir sürücüyü sakinleştirmek veya çekingen bir öğrenciyi cesaretlendirmek gibi. Bu makale, robotların dağınık gerçek dünya koşullarında bile—ışıklandırma, arka plan karmaşıklığı ve kısmi örtülmelerin makineleri sıkça yanıltabildiği durumlarda—yüz ifadelerinden insan duygularını hızlı ve doğru şekilde okuması için yeni bir yöntem sunuyor.

Duygusal Olarak Farkındalıklı Robotların Önemi
İnsan–robot etkileşimi sesli komutlar ve hassas hareketlerden daha fazlasına dayanır. İnsanlar yüzleriyle doğal olarak duygularını işaret eder ve sosyal açıdan zeki makinelerin bunu fark edip uygun şekilde yanıt vermesini bekleriz. Mevcut duygu tanıma sistemleri genellikle yalnızca kontrollü laboratuvar koşullarında iyi çalışır: yüzler merkeze yerleştirilmiş, iyi aydınlatılmış ve net biçimdedir. Oysa günlük hayatta yüzler yana dönmüş, kısmen gizlenmiş ya da kötü aydınlatmada yakalanmış olabilir; bazı duygular—örneğin korku veya tiksinti—eğitim görüntülerinde çok daha az görülür. Yazarlar, güvenlik kontrolleri, sağlık desteği, sürücü izleme ve kişiselleştirilmiş eğitim gibi gerçek dünyada konuşlandırmalara dayanabilecek kadar sağlam bir duygu tanıma sistemi tasarlamayı amaçlıyorlar.
Beyinden İlham Alan Birkaç Ağın Harmanlanması
Araştırmacılar tek bir yapay sinir ağına dayanmak yerine, birkaç gelişmiş görüntü analizi modelinin güçlü yönlerini bir araya getiren “çok-modüllü” bir sistem geliştiriyor. Dört farklı konvolüsyonel ve dönüştürücü tabanlı ağ her biri gelen yüz görüntülerini kendi bakış açısından inceliyor: bazıları gerçek zamanlı kullanım için verimliliğe odaklanıyor, bazıları yüz bölgeleri arasındaki ince ayrıntıları veya uzun menzilli ilişkileri yakalamada üstünlük gösteriyor ve biri gözler ile ağız gibi kritik alanları öne çıkarıyor. Bu ağların çıktıları, hem ince dokuları hem de ifadenin küresel desenlerini yakalayan zengin bir ortak temsile füzyonlanıyor. Bu birleşik temsil daha sonra bir konvolüsyonel ağ, zaman içindeki değişimleri izleyebilen bir rekürent birim ve klasik çok katmanlı algılayıcı dahil olmak üzere bir dizi sınıflandırıcıya besleniyor; bu sınıflandırıcıların ortak oyu nihai duygu etiketini üretiyor.

Daha Keskin Gözler ve Daha Akıllı Eğitim Verisi
Robotun doğru anda doğru yüze odaklanmasını sağlamak için sistem, yüze bakmayı görüntüyü birçok örtüşen kutuyla taramak yerine doğrudan bir tahmin görevi olarak ele alan modern bir nesne algılama yaklaşımı olan bir tespit dönüştürücüsünü (detection transformer) bütünleştirir. Bu bileşen, kalabalık sahnelerde bile yüzleri güvenilir şekilde belirlemeyi öğrenir ve temiz, iyi çerçevelenmiş yüz bölgelerini duygu modüllerine iletir. Yazarlar ayrıca otomatik olarak öğrenilen özellikleri, kenar ve yerel dokuya dikkat eden eski el yapımı tanımlayıcılarla harmanlayarak aydınlatma değişimlerine ve kısmi örtülmelere daha dayanıklı olabilecek bir hibrit özellik seti oluşturuyorlar. Duygusal kategorilerin doğal dengesizliğini telafi etmek için—gülümseyen yüzlerin korku gösterenlerden çok daha fazla olması gibi—eğitim verisini döndürme, çevirme ve renk ile kontrastı değiştirme yoluyla yoğun biçimde artırıyorlar; bu sayede az temsil edilen ifadelerin yeni, çeşitli örnekleri etkili şekilde üretiliyor.
Gerçek ve Zorlu Yüzlerde Test Etme
Ekip yaklaşımını iki yaygın kullanılan yüz ifadeleri veritabanı—AffectNet ve CK+—ve ayrıca laboratuvarlarında kaydettikleri yeni bir özel veri kümesi üzerinde değerlendiriyor. Bu özel veri kümesi kasıtlı olarak sert aydınlatma, karmaşık ve değişen arka planlar ve çeşitli kültürel geçmişlerden insanlar içeriyor; bu da bir robotun vahşi doğada karşılaşabileceği durumları daha iyi taklit ediyor. Üç veri kümesi genelinde, çok-modüllü sistem yüksek doğruluk elde ediyor; halka açık koleksiyonlarda %90’ın üzerinde ve titizlikle seçilmiş laboratuvar verisinde yaklaşık %98 civarı. Veri artırma performansı tutarlı şekilde yükseltiyor; özellikle korku ve tiksinti gibi zor duygular için büyük katkı sağlıyor ve birleşik ansambl klasik el yapımı boru hatlarını ve modern tek ağ tabanlı yaklaşımları geride bırakıyor. Önemli olarak, tasarım verimli bir model ailesi üzerine kurulduğu için işlem hızı gerçek zamanlı yanıtlar için yeterince hızlı tutuluyor.
Daha Duyarlı Makine Ortakları İnşa Etmek
Pratik açıdan bu çalışma, robotların yalnızca yüzleri bulmakla kalmayıp aynı zamanda bunların duygusal içeriğini günlük kullanım için uygun bir güvenilirlikle okuyabilen katmanlı bir görme sistemiyle donatılabileceğini gösteriyor. Birden çok uzmanlaşmış ağı üst üste koyarak, modern bir yüz algılama modülü ekleyerek ve eğitim verisini dikkatle genişletip dengeleyerek, sistem zorlu görsel koşullar altında bile temel duygu yelpazesini anlayabiliyor. Uzman olmayanlar için çıkarım basit: bu tür bir mimariyle, geleceğin robotları ve etkileşimli cihazları birinin mutlu, üzgün, endişeli veya ilgisiz olduğunu daha iyi algılayacak ve eylemlerini buna göre ayarlayacak—bu da makinelerle etkileşimlerimizi daha doğal, destekleyici ve insancıl hissettirecek.
Atıf: Zaman, K., Islam, A.U., Zengkang, G. et al. A novel multi-module neural networks strategy of human emotion recognition in the human-robot interaction. Sci Rep 16, 11433 (2026). https://doi.org/10.1038/s41598-026-40798-8
Anahtar kelimeler: insan-robot etkileşimi, duygu tanıma, yüz ifadeleri, derin öğrenme, dönüştürücü tabanlı görsel