Clear Sky Science · tr

Gürültülü ve sessiz ortamlarda bakış, konuşma ve hareket verilerine sahip Danca çokkişili konuşmaların GaMMA korpusu

· Dizine geri dön

Neden gürültülü konuşmalar önemli

Hareketli bir kafede arkadaşlarınızla sohbet etmeye çalıştıysanız, konuşmanın akışını takip etmenin ne kadar zor olabileceğini deneyimlemişsinizdir. Buna rağmen bilimin konuşma ve işitme hakkındaki bilgileri çoğunlukla tek konuşmacılı, düzenli laboratuvar deneylerinden gelir. Bu makale, ne söylediklerini, nereye baktıklarını, başlarını nasıl hareket ettirdiklerini ve çevredeki uğultunun ne kadar yüksek olduğunu ayrıntılı biçimde ölçerek kaydedilmiş, gerçek yaşam tarzı grup konuşmalarından oluşan büyük ve ücretsiz GaMMA korpusunu tanıtıyor. Veri seti, daha iyi işitme cihazları, daha akıllı iletişim aygıtları ve günlük gürültüde nasıl konuştuğumuza dair daha gerçekçi modeller geliştirmek isteyen araştırmacılar için bir oyun alanı olarak tasarlandı.

Figure 1
Figure 1.

Kokteyl partisinde konuşmak

Araştırmacılar dört kişinin birlikte sohbet ettiği, sıra alıp konuştuğu, söz kesmelerin, gülüşmelerin ve bazen birbirlerinin üzerine konuşmaların olduğu “çokkişili” konuşmalara odaklanıyor. Bu tür durumlar klasik “kokteyl partisi problemi” için doğal bir sınama ortamı sağlar: dinleyiciler çok sayıda ses arasından ve gürültülü bir arka plan karşısında nasıl tek bir sese odaklanır? Mevcut veri setleri bu zorluğun bazı yönlerini yakalar, ancak genellikle senaryolu görevler, sabit gürültü düzeyleri veya birbirini tanımayan katılımcılar kullanırlar. GaMMA ise gerçeğe daha yakın hissettirilmek üzere oluşturuldu: 44 katılımcının tamamı ana dili Danca olan kişilerdi ve arkadaşları ya da aileleriyle konuştular; belirli bir konu veya rol verilmedi ve arka plan gürültüsü sessiz oda uğultusundan canlı restoransal uğultuya kadar değişti; ayrıca gürültü seviyesinin yavaşça yükselip düştüğü bir koşul da vardı.

Birlikte görmek, duymak ve hareket etmek

Yüz yüze konuşmayı şekillendiren zengin sinyal karışımını yakalamak için her katılımcı üç tür ekipman taktı: nereye baktıklarını kaydetmek için hafif bakış izleme gözlükleri, kulağa ulaşanı yakalamak için küçük kulak içi mikrofonlar ve konuşmalarını net kaydetmek amacıyla ağız yakınında başa takılan küçük bir mikrofon. Odaya yerleştirilen sekiz kızılötesi kamera, gözlüklere monte edilen işaretleyicileri izleyerek her konuşmacının baş pozisyonu ve yönelimini 3B olarak yeniden oluşturmayı mümkün kıldı. Masanın etrafına yerleştirilen dört hoparlör arka plan uğultusunu dikkatle kontrollü düzeylerde çaldı ve odanın akustiği ölçüldü; böylece veri setini kullanacaklar mekânda sesin nasıl davrandığını tam olarak bilecekler.

Doğal hissettiren kayıtlar yapmak

Temel tasarım hedeflerinden biri insanların konuşma ve dinleme biçimlerini değiştirmemekti. Standart kulak içi mikrofonlar kulak kanalını tıkayabilir ve kendi sesimizi duymamızı ince bir şekilde değiştirebilir; bu da konuşma tarzımızı etkileyebilir. Bu yüzden ekip ticari işitme cihazı mikrofonlarını kulağa minimum tıkanma ile oturacak şekilde yeniden yapılandırdı. Bir manken kafa ve hassas test ekipmanı kullanılarak bu mikrofonların kulak kanalındaki sesi ne ölçüde değiştirdiği ölçüldü ve depolanan sesin gerçek bir kulak zarına ulaşana yakın olması için filtreler tasarlandı. Ayrıca başa takılan mikrofonlar kalibre edilerek konuşma seviyelerinin katılımcılar arasında karşılaştırılabilir olması sağlandı. Oturumlar sonrası toplanan anket yanıtları, ekipman ve laboratuvar ortamına rağmen insanların konuşmalarını genel olarak doğal hissettiklerini ve kurulumun aşırı müdahaleci olmadığını gösteriyor.

Figure 2
Figure 2.

Kargaşayı temizlemek

Böyle yoğun sahnelerden elde edilen ham kayıtlar karışıktır: mikrofonlar oda gürültüsünü, makine uğultusunu ve birden fazla kişinin sesini birlikte yakalar. Korpusu daha kullanışlı hale getirmek için yazarlar hem işlenmemiş hem de “temizlenmiş” ses sürümlerini sağlıyor. Modern bir derin öğrenme algoritması arka plan uğultusunu azaltıyor ve uyarlamalı bir filtreleme yöntemi her kişinin mikrofonuna başka konuşmacıların sızmasını bastırıyor. Ardından bir ses-aktiflik algılayıcısı her katılımcının ne zaman konuştuğunu işaretliyor. Ekip, bu işleme adımlarının sinyal kalitesini farklı koşullar altında—sadece donanım sahibi konuştuğunda, sadece diğerleri konuştuğunda veya birkaç kişi aynı anda konuştuğunda—nasıl etkilediğini sistematik olarak kontrol etti ve gürültünün ana sesi gözle görülür biçimde zarar vermeden önemli ölçüde azaltılabileceğini buldu.

Gerçek konuşmaları incelemek için bir araç takımı

Tüm veriler donanımın izin verdiği ölçüde zaman açısından hizalanmış olarak ve kalibrasyon dosyaları ile göz izleme verilerindeki küçük saat kaymaları ve ara sıra boşluklar gibi bilinen sınırlamalar hakkında belgelerle birlikte standart biçimlerde dağıtılıyor. Ortaya çıkan şey, her biri dört farklı gürültü düzeyinde kaydedilmiş seneler boyunca süren değil ama dokuz saatin üzerinde dört kişilik konuşmalar; senkronize konuşma, bakış ve hareket verileriyle birlikte. Bilim insanları ve mühendisler için GaMMA, insanların bakışlarını nasıl değiştirdiğini, konuşmalarını nasıl ayarladığını ve gerçekten sosyal ortamlarda sıra alışverişini nasıl koordine ettiklerini incelemek için nadir bir fırsat sunuyor. Genel okuyucu için çıkarım ise şöyle: Gürültülü ortamlarda iletişimi anlamak ve iyileştirmek, konuşma, dinleme, bakma ve birlikte hareket etmenin tüm karmaşıklığını kucaklamayı gerektirir—ve bu veri seti o hedefe doğru atılmış önemli bir adım niteliğindedir.

Atıf: Dourado, M., Gert Hassager, H., Udesen, J. et al. The GaMMA corpus of Danish polyadic conversations with gaze speech and motion data in quiet and noise. Sci Data 13, 494 (2026). https://doi.org/10.1038/s41597-026-06851-x

Anahtar kelimeler: kokteyl partisi etkisi, çokmodlu konuşma, gürültüde konuşma, bakış izleme, işitme araştırması veri seti