Clear Sky Science · tr
Daha Zengin Çok Modlu Diyaloglar için Çoklu Duygu ve Yoğunluk Odaklı Yanıt Üretimi
Daha akıllı sohbet botlarının bize daha çok benzemesi gerekmesinin nedeni
Çoğumuz artık telefonlarımızda, bilgisayarlarımızda veya akıllı hoparlörlerde dijital yardımcılarla konuşuyoruz. Bu sistemler soruları yanıtlamakta başarılı, ancak çoğu kez sözlerimizin ardındaki duygusal tonu kaçırıyorlar. Bu makale, tek bir ruh hâlini tanımakla kalmayıp aynı anda birkaç duyguyu harmanlayabilen ve bu duyguların her birinin ne kadar güçlü olduğunu konuşma, yüz ifadeleri ve metni birlikte kullanarak eşleştirebilen yapay zekâlar nasıl inşa edilir sorusunu inceliyor.

Basit ruh hâllerinden katmanlı duygulara
Günlük konuşmalar nadiren saf sevinç ya da saf öfke olur. Tek bir cümle hem şaşkınlık hem mutluluk taşıyabilir ya da öfke ile tiksinti karışabilir; her duygu zayıf ya da güçlü olabilir. Önceki diyalog sistemleri genellikle her mesajı tek bir ana duyguya sabitlemeye çalıştı. Birden çok duygu olabileceğini kabul ettiklerinde bile, bunların hepsini genellikle aynı güçte kabul ettiler. Sonuç olarak, cevapları ya donuk ya da abartılı geldi ve hangi duygunun yanıt üzerinde baskın olması gerektiğini koruyamadılar.
Gözlerle, kulaklarla ve kelimelerle dinlemek
Bunu ele almak için yazarlar, hem drama hem komediyi kapsayan sekiz popüler İngilizce televizyon dizisinden geniş bir sahne koleksiyonuna dayanıyor. MEIMD adlı orijinal veri seti, her diyalog satırını birkaç duygu ve her biri için bir yoğunluk puanı ile etiketlemişti, ancak yalnızca senaryo metnini saklıyordu. Araştırmacılar bunu ilgili ses ve video kliplerini ekleyerek zenginleştiriyor ve MEIMD++ adlı yeni bir çok modlu kaynak oluşturuyor. Artık her cümle sözcüklerin yanı sıra oyuncunun sesini ve yüz ifadelerini de içeriyor; duyguların nasıl ifade edildiğine dair daha eksiksiz bir görünüm sunuyor.

Yeni konuşma modelinin iç işleyişi
Önerilen sistem MMEI-DD, her biri farklı bir sinyale odaklanan birkaç derin öğrenme bileşeninden inşa ediliyor. Bir bölüm diyalog metnini okuyor, başka bir bölüm video karelerini işliyor ve üçüncü bölüm sesi dinliyor. Özel bir modül bu akışların birbirleriyle nasıl ilişkili olduğunu öğreniyor; örneğin keskin bir ton ile kaş çatmanın görünüşte nötr bir cümleyle bağlantısını kurmak gibi. Bu birleşik temsil, modelin hangi duyguların mevcut olduğunu ve ne kadar güçlü olduklarını daha iyi tahmin etmesini sağlıyor, ardından bir yanıt seçiyor.
Birden çok duyguyu doğru yoğunlukta harmanlama
Tek bir ruh hâlini belirleyip tek seferde yanıt üretmek yerine model iki aşamalı bir kod çözme süreci kullanıyor. İlk aşamada güçlü öfke gibi bir duygu ve seçilen yoğunluğu ile yönlendirilen taslak bir yanıt üretiyor. İkinci aşamada bu taslağı hafif bir şaşkınlık veya düşük düzeyde tiksinti gibi ikinci bir duygu ve onun yoğunluğunu ekleyerek rafine ediyor. Bu adımları ayırarak, sistem bir duygunun diğerlerini tamamen bastırmasına engel oluyor ve bunlar arasındaki dengeyi orijinal konuşmada görülenlere daha yakın tutuyor.
Daha zengin duygusal ipuçları daha iyi yanıtlar sağlar mı
Yaklaşımlarını test etmek için yazarlar MMEI-DD’yi hem otomatik skorlar hem de insan değerlendirmeleriyle önceki birkaç sistemle karşılaştırıyor. Yanıtların akıcılığı ve alaka düzeyi, hedeflenen duygularla ne kadar uyumlu oldukları ve her duygu yoğunluğunun hedeften ne kadar yakın olduğu ölçülüyor. Bu testlerde yeni model, yalnızca metne dayanan veya yoğunluğu görmezden gelen yöntemlere göre daha tutarlı, duygusal açıdan daha ayrıntılı yanıtlar üretiyor. İnsan değerlendiriciler de onun cevaplarını daha doğal ve duygusal açıdan daha uygun buluyor.
Günlük yapay zeka yardımcıları için anlamı
Uzman olmayanlar için ana mesaj, gelecekteki sohbet botları ve sesli asistanların sadece ne söylediğimize değil, sözlerimizin arkasındaki ince duygu karışımına da yanıt verebilecek olmalarıdır. Ses, yüz ifadeleri ve dili birlikte kullanarak ve birden çok duyguyu ile bunların yoğunluklarını dikkatle kontrol ederek, MMEI-DD gibi sistemler anlayış hissi veren, basitçe yanıtlananın ötesinde konuşmalara doğru ilerliyor.
Atıf: Singh, A., Shree, R., Pandey, D. et al. Multi-emotion and intensity-driven response generation for richer multimodal dialogue. Sci Rep 16, 15696 (2026). https://doi.org/10.1038/s41598-026-41034-z
Anahtar kelimeler: duygusal sohbet botları, çok modlu diyalog, duygu analiz, duygu yoğunluğu, konuşma yapay zekâsı