Clear Sky Science · tr

Multi-TPC: Konuşma, Hareket ve Bakış İçeren Üç Kişilik Konuşmalar için Çok Modlu Bir Veri Kümesi

· Dizine geri dön

Konuşurken nasıl hareket ettiğimizin ve nereye baktığımızın neden önemli olduğu

İnsanlar yüz yüze konuşurken sadece söz alışverişinde bulunmazlar. Öne doğru eğilir, kafasını sallar, birbirlerine göz atar ve tam doğru noktalarda duraklarlar. Bu ince hareketler üç kişinin aynı anda konuştuğu durumlarda daha da önem kazanır; çünkü dikkat ve konuşma sırası sürekli değişir. Buna rağmen şimdiye dek konuşma, beden hareketi ve bakışın küçük grup konuşmalarında birlikte nasıl işlediğini gösteren yüksek kaliteli veri çok sınırlıydı. Bu makale, bu boşluğu doldurmayı amaçlayan ve daha doğal sanal asistanlar, sosyal robotlar ve günlük insan etkileşimini incelemeye yönelik araçlar geliştirmeye yardımcı olacak yeni bir veri kümesini tanıtıyor.

Üç kişilik konuşmalara yeni bir pencere

Yazarlar, laboratuvarda hareket yakalama, göz izleyiciler ve bireysel mikrofonlar kullanılarak kaydedilmiş üç kişilik konuşmalardan oluşan kamuya açık Multi-TPC koleksiyonunu sunuyor. Tek bir konuşmacıya veya yalnızca iki kişi arasındaki konuşmalara odaklanan birçok önceki kaynağın aksine, Multi-TPC üç yabancı arasında kendiliğinden gelişen tartışmaları yakalıyor; katılımcılar bir üçgen oluşturarak istedikleri konuyu konuşuyorlar. 21 genç yetişkinden elde edilen 5,3 saatin üzerinde kayıt, 24 oturuma ayrılmış şekilde dahil ediliyor. Bu konuşmalardaki her an için veri kümesi, her bir kişinin nasıl konuştuğu, bedenini nasıl hareket ettirdiği ve bakışlarını nereye yönlendirdiği konusunda ayrıntılı bilgi sunuyor.

Figure 1
Şekil 1.

Konuşmalar nasıl kaydedildi

Bu veri kümesini oluşturmak için ekip hibrit bir kayıt düzeni geliştirdi. Her katılımcı, duruşlarını, baş hareketlerini ve jestlerini üç boyutta izleyebilen sekiz kameralı bir dizi tarafından takip edilebilecek reflektif işaretleyicilerle dolu tam vücut hareket yakalama tulumu giydi. Normal gözlüklere benzer hafif göz izleme gözlükleri, her bir kişinin görsel alanında nereye baktığını ölçtü. Boyuna takılan kablosuz mikrofonlar, her konuşmacının sesini ayrı bir ses kanalında kaydetti. Kayıttan önce katılımcılar sistemde kalibre edildi ve yaklaşık bir metre aralıklarla eşkenar bir üçgen oluşturan sabit noktada durmaları istendi. Kameralara, göz izleyicilere ve mikrofonlara görünür bir klaket, tüm aygıtların zaman içinde hizalanması için hassas bir işaret sağlayarak hareket, bakış ve konuşmanın kare kare eşleştirilmesini sağladı.

Verinin temizlenmesi, düzenlenmesi ve zenginleştirilmesi

Ham sinyallerin toplanması yalnızca ilk adımdı. Araştırmacılar hareket verilerini özenle işledi; tüm işaretleyicileri etiketleyip yakın çevredeki işaretleyici konumlarını çapraz kontrol ederek küçük boşlukları matematiksel enterpolasyonla doldurdular. Ses kayıtları gürültü azaltma yöntemleriyle temizlendi ve ardından kelime kelime transkriptler üretmek için konuşma tanıma yazılımına verildi; bu transkriptler daha sonra elle düzeltildi. Kamera piksellerinde ölçülen bakış noktaları, her bir kişinin uzayda nereye baktığını gösteren 3B açılara dönüştürüldü. Tüm sinyaller 60 kare/saniyeye indirgenip senkronize edildi ve basit, açık formatlarda saklandı. Nihai veri kümesi modaliteye göre — hareket, bakış, ses, kelimeler ve şiddet ile perde gibi prosodik özellikler — düzenlendi; araştırmacıların herhangi bir anı üç katılımcı arasında kolayca izleyebilmesi için açık dosya adlandırma kuralları sağlandı.

Figure 2
Şekil 2.

Veri kümesi grup konuşması hakkında neler gösteriyor

Multi-TPC kullanılarak yazarlar, üç kişilik konuşmaların nasıl geliştiğine dair ilk istatistiksel turu gerçekleştirdiler. Konuşma sıralarını ve sessizlikleri ölçtular; tipik bir konuşma sırasının yaklaşık 2,7 saniye sürdüğünü ve bunu biraz aşan bir saniyelik duraklamaların izlediğini buldular. Dinleyici geri bildirimi biçimi olarak baş sallama ve baş çevirme gibi hareketleri de incelediler; ortalamada yaklaşık her saniyede çeyrek baş sallama veya çevirme tespit edildi — bu, dinleyicilerin sözcük söylemeden dikkat ve tutum sinyali verdiklerinin kanıtı. Bakış analizleri, insanların nadiren uzun süre doğrudan bir başa sabitlendiğini gösterdi. Bunun yerine sıklıkla biraz uzağa bakıyorlar ve bakış desenleri kimin konuştuğuna, bir duraklama olup olmadığına veya birden fazla kişinin aynı anda konuşup konuşmadığına bağlı olarak değişiyor. Çakışan konuşma sırasında katılımcıların bakışı daha eşit olarak dağılma eğiliminde ya da her iki partnerden uzağa kayma eğiliminde; bu da konuşma hakkının kimin elinde olduğu konusunda belirsizlik işaretleri veriyor.

Bu kaynak geleceğin teknolojisi için neden önemli

Tüm bu bilgi katmanlarını iyi belgelenmiş, paylaşılabilir bir veri kümesi halinde paketleyerek Multi-TPC, küçük grupların söz hakkı yönetimini, dikkati ve hem sözlerle hem de hareketle verilen geri bildirimi nasıl yönettiklerini incelemek için yeni bir temel sunuyor. Genel okurlar için çıkarılacak ders, konuşmanın dansı — kimin ne zaman konuştuğu, kim nerede baktığı ve ince baş sallamalar akışı nasıl şekillendiriyor — artık ayrıntılı biçimde yakalanmış durumda. Bilim insanları ve geliştiriciler için bu, grup ortamlarında gerçek insanlara daha benzer yanıt veren sanal karakterler ve sosyal robotlar oluşturmanın yanı sıra, ses, beden ve bakış aracılığıyla birbirimizle nasıl koordine olduğumuz üzerine daha derin çalışmalara kapı açıyor.

Atıf: Lee, MC., Deng, Z. Multi-TPC: A Multimodal Dataset for Three-Party Conversations with Speech, Motion, and Gaze. Sci Data 13, 429 (2026). https://doi.org/10.1038/s41597-026-06819-x

Anahtar kelimeler: çok modlu konuşma, jest ve bakış, sosyal etkileşim veri kümesi, söz hakkı geçişi, sanal ajanlar