Clear Sky Science · sv

GaMMA-korpusen med danska polyadiska samtal med blick-, tal- och rörelsedata i tystnad och brus

· Tillbaka till index

Varför bullriga samtal är viktiga

Om du någon gång försökt prata med vänner på ett livligt kafé har du upplevt hur svårt det kan vara att följa samtalstråden. Ändå kommer det mesta forskarna vet om tal och hörsel fortfarande från prydliga labbexperiment med en talare åt gången. Den här artikeln presenterar GaMMA-korpusen, en stor, fritt tillgänglig samling av vardagsnära gruppsamtal på danska, inspelade med finmaskiga mätningar av vad människor säger, vart de tittar, hur de rör på huvudet och hur högt det omkringliggande sorlet är. Den är utformad som en lekplats för forskare som vill bygga bättre hörapparater, smartare kommunikationsenheter och mer realistiska modeller för hur vi talar i vardagsbrus.

Figure 1
Figure 1.

Tala på cocktailpartyt

Forskarna fokuserar på ”polyadiska” samtal—fyra personer som pratar tillsammans, turas om, avbryter, skrattar och ibland talar i mun på varandra. Sådana situationer är ett naturligt testfall för det klassiska ”cocktailpartypproblemet”: hur lyssnare lyckas fokusera på en röst bland många och mot en bullrig bakgrund. Befintliga dataset fångar vissa aspekter av denna utmaning, men de förlitar sig ofta på manusstyrda uppgifter, fasta brusnivåer eller deltagare som inte känner varandra. GaMMA byggdes för att kännas närmare verkligheten: alla 44 deltagare var dansktalande modersmålstalare som pratade med vänner eller familj, utan tilldelade ämnen eller roller, och med bakgrundsbrus som varierade från tyst rumssus till livligt restauranglikt sorl samt en kondition där brusnivån långsamt steg och föll.

Se, höra och röra sig tillsammans

För att fånga den rika blandningen av signaler som formar ansikte-mot-ansikte-samtal bar varje person tre typer av utrustning: lätta ögonspårningsglasögon för att spela in vart de tittade, små in-ear-mikrofoner för att fånga vad som nådde deras öron och en liten huvudburen mikrofon nära munnen för att spela in deras eget tal tydligt. Åtta infraröda kameror i rummet spårade markörer på glasögonen så att teamet kunde rekonstruera varje talares huvudposition och orientering i 3D. Fyra högtalare placerade runt bordet spelade upp bakgrundssorlet på noggrant kontrollerade nivåer, och rummets akustik mättes så att framtida användare av datasetet vet exakt hur ljudet betedde sig i rummet.

Göra inspelningar som fortfarande känns naturliga

Ett viktigt designmål var att undvika att förändra hur människor talar och lyssnar. Standard in-ear-mikrofoner kan blockera hörselgången och subtilt förändra hur vi hör vår egen röst, vilket kan påverka vårt talmönster. Teamet omkonfigurerade därför kommersiella hörapparatmikrofoner så att de satt i örat med minimal blockering. De använde ett dockhuvud och precis testutrustning för att mäta i vilken grad dessa mikrofoner förändrade ljudet i hörselgången och designade filter så att den sparade ljudupptagningen motsvarar vad som skulle nå ett verkligt trumhinna. De kalibrerade även de huvudburna mikrofonerna så att talnivåerna är jämförbara mellan deltagarna. Enkätsvar som samlades in efter sessionerna tyder på att, trots utrustningen och labsituationen, upplevde folk i allmänhet att deras samtal kändes naturliga och att uppsättningen inte var alltför påträngande.

Figure 2
Figure 2.

Rensa upp kaoset

Råinspelningar från sådana livliga scener är röriga: mikrofoner fångar upp rumsbrus, maskinbrum och röster från flera personer samtidigt. För att göra korpusen mer användbar tillhandahåller författarna både obehandlade och ”rensade” versioner av ljudet. En modern djupinlärningsalgoritm minskar bakgrundssorlet, och en adaptiv filtreringsmetod dämpar läckage av andra talares röster i varje persons mikrofon. En röstaktivitetsdetektor markerar sedan när varje deltagare talar. Teamet kontrollerade systematiskt hur dessa bearbetningssteg påverkade signalens kvalitet under olika förhållanden—såsom när endast bäraren talade, när endast andra talade eller när flera personer överlappade i tal—och fann att brus kunde reduceras avsevärt utan att märkbart skada huvudrösten.

En verktygslåda för att studera verkliga samtal

All data är tidsanpassade så tätt som hårdvaran tillåter och distribueras i standardformat, tillsammans med kalibreringsfiler och dokumentation om kända begränsningar såsom små klockdriftar och sporadiska luckor i ögonspårningen. Resultatet är mer än nio timmars samtal mellan fyra personer, varje inspelning gjord vid fyra olika brusalternativ, med synkroniserat tal, blick och rörelse. För forskare och ingenjörer erbjuder GaMMA en sällsynt möjlighet att studera hur människor flyttar sin blick, anpassar sitt tal och koordinerar turstagning i verkligt sociala miljöer. För allmänheten är slutsatsen att förstå och förbättra kommunikation i bullriga miljöer kräver att man omfamnar hela komplexiteten i hur vi talar, lyssnar, ser och rör oss tillsammans—och detta dataset är ett betydande steg mot det målet.

Citering: Dourado, M., Gert Hassager, H., Udesen, J. et al. The GaMMA corpus of Danish polyadic conversations with gaze speech and motion data in quiet and noise. Sci Data 13, 494 (2026). https://doi.org/10.1038/s41597-026-06851-x

Nyckelord: cocktailpartyeffekten, multimodalt samtal, tal i brus, blickspårning, dataset för hörselforskning