Clear Sky Science · pl

Korups GaMMA z duńskimi rozmowami poliadrycznymi z danymi o spojrzeniach, mowie i ruchu w ciszy i hałasie

· Powrót do spisu

Dlaczego hałaśliwe rozmowy mają znaczenie

Jeśli kiedykolwiek próbowałeś rozmawiać z przyjaciółmi w tętniącej życiem kawiarni, wiesz, jak trudno czasem podążać za wątkiem rozmowy. Tymczasem większość wiedzy naukowej o mowie i słyszeniu wciąż pochodzi z porządnych eksperymentów laboratoryjnych z jednym rozmówcą naraz. Ten artykuł przedstawia korpus GaMMA — dużą, bezpłatnie dostępną kolekcję rozmów grupowych w języku duńskim, nagranych w stylu zbliżonym do rzeczywistego, z precyzyjnymi pomiarami tego, co ludzie mówią, gdzie patrzą, jak poruszają głowami oraz jak głośny jest otaczający szum. Został zaprojektowany jako pole doświadczalne dla badaczy, którzy chcą tworzyć lepsze aparaty słuchowe, inteligentniejsze urządzenia komunikacyjne i bardziej realistyczne modele rozmowy w codziennym hałasie.

Figure 1
Figure 1.

Rozmowa na przyjęciu koktajlowym

Badacze koncentrują się na rozmowach „poliadrycznych” — czterech osobach rozmawiających razem, które prowadzą dialogi, przerywają sobie, śmieją się i czasem mówią jednocześnie. Tego rodzaju sytuacje stanowią naturalne pole do testów dla klasycznego „problemu przyjęcia koktajlowego”: jak słuchacze potrafią skupić się na jednym głosie spośród wielu i ponad hałaśliwym tłem. Istniejące zbiory danych uchwyciły niektóre aspekty tego wyzwania, ale często opierają się na scenariuszach, stałych poziomach hałasu lub uczestnikach, którzy się nie znają. GaMMA powstała tak, by być bliżej życia: wszyscy 44 uczestnicy byli rodzimymi użytkownikami języka duńskiego rozmawiającymi z przyjaciółmi lub rodziną, bez przypisanych tematów czy ról, a hałas w tle mieścił się w zakresie od cichego szumu pomieszczenia po żywą, restauracyjną wrzawę i warunek, w którym poziom hałasu powoli wzrastał i spadał.

Widzieć, słyszeć i poruszać się razem

Aby uchwycić bogactwo sygnałów kształtujących rozmowę twarzą w twarz, każda osoba nosiła trzy rodzaje sprzętu: lekkie okulary do śledzenia wzroku, rejestrujące, gdzie patrzyły, malutkie mikrofony douszne rejestrujące to, co docierało do ich uszu, oraz niewielki mikrofon noszony na głowie blisko ust, aby jasno nagrać własną mowę. Osiem kamer na podczerwień w pomieszczeniu śledziło markery na okularach, co pozwoliło zespołowi odtworzyć pozycję i orientację głowy każdego rozmówcy w 3D. Cztery głośniki rozmieszczone wokół stołu odtwarzały szum tła na starannie kontrolowanych poziomach, a akustykę pomieszczenia zmierzono, tak by przyszli użytkownicy zbioru danych dokładnie wiedzieli, jak zachowywał się dźwięk w tym miejscu.

Tworzenie nagrań, które nadal brzmią naturalnie

Głównym celem projektowym było unikanie zmiany sposobu, w jaki ludzie mówią i słuchają. Standardowe mikrofony douszne mogą zatykać przewód słuchowy i subtelnie zmieniać sposób, w jaki słyszymy własny głos, co może wpływać na styl mówienia. Zespół dlatego przeprojektował komercyjne mikrofony stosowane w aparatach słuchowych, aby leżeć w uchu przy minimalnym zatykaniu. Użyli głowy manekina i precyzyjnego sprzętu testowego, aby zmierzyć, jak bardzo te mikrofony zmieniają dźwięk w przewodzie słuchowym, i zaprojektowali filtry tak, by przechowywane nagrania odpowiadały temu, co docierałoby do rzeczywistego błony bębenkowej. Skalibrowali też mikrofony noszone na głowie, aby poziomy mowy były porównywalne między uczestnikami. Odpowiedzi na ankiety zebrane po sesjach sugerują, że pomimo sprzętu i warunków laboratoryjnych uczestnicy ogólnie uznali rozmowy za naturalne i nie czuli, że ustawienie jest nadmiernie inwazyjne.

Figure 2
Figure 2.

Porządkowanie chaosu

Surowe nagrania z tak zajętych scen są nieuporządkowane: mikrofony rejestrują hałas pomieszczenia, szumy maszyn i głosy kilku osób naraz. Aby uczynić korpus bardziej użytecznym, autorzy udostępniają zarówno wersje nieprzetworzone, jak i „oczyszczone” audio. Nowoczesny algorytm uczenia głębokiego redukuje tło z rozmów, a adaptacyjna metoda filtracji tłumi przenikanie głosów innych mówców do mikrofonu danej osoby. Detektor aktywności głosu oznacza następnie, kiedy każdy uczestnik mówi. Zespół systematycznie sprawdził, jak te kroki przetwarzania wpływają na jakość sygnału w różnych warunkach — na przykład gdy mówi tylko nosiciel mikrofonu, gdy mówią tylko inni, albo gdy kilku ludzi mówi jednocześnie — i stwierdził, że hałas można znacząco zredukować bez widocznego pogorszenia głównego głosu.

Zestaw narzędzi do badania prawdziwych rozmów

Wszystkie dane są wyrównane czasowo tak dokładnie, jak pozwala na to sprzęt i dystrybuowane w standardowych formatach, wraz z plikami kalibracyjnymi i dokumentacją dotyczącą znanych ograniczeń, takich jak drobne dryfy zegarów i sporadyczne przerwy w śledzeniu wzroku. Efektem jest ponad dziewięć godzin rozmów czteroosobowych, każda nagrana przy czterech różnych ustawieniach hałasu, z zsynchronizowanymi sygnałami mowy, spojrzeń i ruchu. Dla naukowców i inżynierów GaMMA oferuje rzadką możliwość badania, jak ludzie przesuwają wzrok, dostosowują mowę i koordynują przekazywanie głosu w prawdziwie społecznym kontekście. Dla czytelników nietechnicznych wniosek jest taki, że zrozumienie i ulepszenie komunikacji w hałaśliwych miejscach wymaga uwzględnienia pełnej złożoności tego, jak mówimy, słuchamy, patrzymy i poruszamy się razem — a ten zbiór danych to znaczący krok w tym kierunku.

Cytowanie: Dourado, M., Gert Hassager, H., Udesen, J. et al. The GaMMA corpus of Danish polyadic conversations with gaze speech and motion data in quiet and noise. Sci Data 13, 494 (2026). https://doi.org/10.1038/s41597-026-06851-x

Słowa kluczowe: efekt przyjęcia koktajlowego, konwersacja multimodalna, mowa w hałasie, śledzenie spojrzenia, zbiór danych do badań nad słyszeniem