Clear Sky Science · nl

De GaMMA-corpus van Deense polyadische gesprekken met blik-, spraak- en bewegingsdata in stilte en lawaai

· Terug naar het overzicht

Waarom gesprekken in lawaai belangrijk zijn

Als je ooit geprobeerd hebt te praten met vrienden in een druk café, weet je hoe moeilijk het kan zijn het gesprek te volgen. Toch komt het grootste deel van wat wetenschappers weten over spraak en horen nog steeds uit nette labo-experimenten met één spreker tegelijk. Dit artikel introduceert de GaMMA-corpus, een grote, vrij beschikbare verzameling groepsgesprekken in het Deens in real-life-stijl, opgenomen met fijnmazige metingen van wat mensen zeggen, waar ze naar kijken, hoe ze hun hoofd bewegen en hoe luid de omgevingsruis is. Het is ontworpen als speelplaats voor onderzoekers die betere hoortoestellen, slimmer communicatiemateriaal en realistischere modellen van hoe we in alledaags lawaai praten willen ontwikkelen.

Figure 1
Figuur 1.

Praten op het cocktailparty

De onderzoekers richten zich op “polyadische” gesprekken—vier mensen die samen kletsen, beurten nemen, elkaar onderbreken, lachen en soms door elkaar praten. Deze situaties vormen een natuurlijke testomgeving voor het klassieke “cocktailparty-probleem”: hoe luisteraars erin slagen zich op één stem te concentreren temidden van vele stemmen en tegen een luid achtergrondgeluid. Bestaande datasets leggen enkele aspecten van deze uitdaging vast, maar ze vertrouwen vaak op gescripte taken, vaste geluidsniveaus of deelnemers die elkaar niet kennen. GaMMA is opgebouwd om dichter bij het echte leven te voelen: alle 44 deelnemers waren moedertaalsprekers Deens die met vrienden of familie praatten, zonder toegewezen onderwerpen of rollen, en met achtergrondgeluid variërend van een stille kamerzoem tot levendige restaurantachtige rumoerigheid en een conditie waarin het geluidsniveau langzaam steeg en zakte.

Gezamenlijk zien, horen en bewegen

Om het rijke palet aan signalen vast te leggen die face-to-facegesprekken vormgeven, droeg elke persoon drie soorten apparatuur: lichte brillen met bliktracking om vast te leggen waar ze naar keken, kleine in-ear-microfoontjes om vast te leggen wat hun oren bereikte, en een klein microfoontje op het hoofd nabij de mond om de eigen spraak duidelijk op te nemen. Acht infraroodcamera’s in de ruimte volgden markers op de bril zodat het team de positie en oriëntatie van ieders hoofd in 3D kon reconstrueren. Vier luidsprekers rondom de tafel speelden de achtergrondruis op zorgvuldig gecontroleerde niveaus af, en de akoestiek van de ruimte werd gemeten zodat toekomstige gebruikers van de dataset precies weten hoe geluid zich in de ruimte gedroeg.

Opnames maken die toch natuurlijk aanvoelen

Een belangrijk ontwerpmotiv was te voorkomen dat men het spreek- en luistergedrag zou veranderen. Standaard in-ear-microfoons kunnen de gehoorgang blokkeren en subtiel veranderen hoe we ons eigen stemgeluid horen, wat ons spreekgedrag kan beïnvloeden. Het team herconfigureerde daarom commerciële hoortoestelmicrofoons zodat ze in het oor zaten met minimale blokkade. Ze gebruikten een manneke-kop en nauwkeurige testapparatuur om te meten hoeveel deze microfoons het geluid in de gehoorgang veranderden en ontwierpen filters zodat de opgeslagen audio dicht overeenkomt met wat een echt trommelvlies zou bereiken. Ze kalibreerden ook de hoofdgedragen microfoons zodat spraagniveaus tussen deelnemers vergelijkbaar zijn. Vragenlijstantwoorden verzameld na de sessies suggereren dat mensen, ondanks de apparatuur en de labomgeving, over het algemeen vonden dat hun gesprekken natuurlijk aanvoelden en dat de opstelling niet te opdringerig was.

Figure 2
Figuur 2.

De chaos opruimen

Onbewerkte opnamen van zulke drukke scènes zijn rommelig: microfoons nemen kamergeluid, machinezoem en de stemmen van meerdere mensen tegelijk op. Om de corpus nuttiger te maken, bieden de auteurs zowel onbewerkte als “gezuiverde” versies van de audio. Een moderne deep-learning-algoritme vermindert de achtergrondruis, en een adaptieve filtermethode onderdrukt het lekken van andere sprekers naar de microfoon van elk individu. Een voice-activity-detector markeert vervolgens wanneer elke deelnemer spreekt. Het team controleerde systematisch hoe deze verwerkingsstappen de signaalkwaliteit onder verschillende condities beïnvloedden—zoals wanneer alleen de drager sprak, wanneer alleen anderen spraken of wanneer meerdere mensen tegelijk spraken—en vond dat ruis aanzienlijk kon worden verminderd zonder de hoofdspreker merkbaar te beschadigen.

Een toolkit om echte gesprekken te bestuderen

Alle data zijn zo nauwgezet mogelijk tijd-gesynchroniseerd volgens de hardware en worden verspreid in standaardformaten, samen met kalibratiebestanden en documentatie over bekende beperkingen zoals kleine klokdrift en occasionele hiaten in de bliktracking. Het resultaat is meer dan negen uur aan vierpersoonsgesprekken, elk opgenomen in vier verschillende geluidsinstellingen, met gesynchroniseerde spraak, blik en beweging. Voor wetenschappers en ingenieurs biedt GaMMA een zeldzame kans om te bestuderen hoe mensen hun blik verschuiven, hun spraak aanpassen en beurtwisseling coördineren in werkelijk sociale situaties. Voor leken is de conclusie dat het begrijpen en verbeteren van communicatie in rumoerige omgevingen vereist dat we de volledige complexiteit omarmen van hoe we samen praten, luisteren, kijken en bewegen—en deze dataset is een belangrijke stap in die richting.

Bronvermelding: Dourado, M., Gert Hassager, H., Udesen, J. et al. The GaMMA corpus of Danish polyadic conversations with gaze speech and motion data in quiet and noise. Sci Data 13, 494 (2026). https://doi.org/10.1038/s41597-026-06851-x

Trefwoorden: cocktailparty-effect, multimodale conversatie, spraak in lawaai, bliktracking, dataset voor hooronderzoek