Clear Sky Science · de

Das GaMMA-Korpus dänischer polyadischer Gespräche mit Blick-, Sprach- und Bewegungsdaten in Ruhe und Lärm

2026-02-21 · Zurück zur Übersicht

Warum laute Gespräche wichtig sind

Wenn Sie schon einmal versucht haben, mit Freunden in einem belebten Café zu plaudern, wissen Sie, wie schwer es sein kann, dem Gespräch zu folgen. Trotzdem stammen die meisten Erkenntnisse von Wissenschaftlern über Sprache und Hören noch aus ordentlichen Laborversuchen mit jeweils nur einem Sprecher. Dieser Artikel stellt das GaMMA-Korpus vor, eine große, frei verfügbare Sammlung von alltagsähnlichen Gruppengesprächen auf Dänisch, aufgezeichnet mit feingranularen Messungen dessen, was Menschen sagen, wohin sie blicken, wie sie ihre Köpfe bewegen und wie laut das umgebende Gemurmel ist. Es wurde als Spielwiese für Forschende entworfen, die bessere Hörgeräte, intelligentere Kommunikationsgeräte und realistischere Modelle dafür entwickeln wollen, wie wir im alltäglichen Lärm sprechen.

Gespräche auf der Cocktailparty

Die Forschenden konzentrieren sich auf „polyadische“ Gespräche – vier Personen, die zusammen plaudern, sich abwechseln, sich unterbrechen, lachen und sich manchmal überlappen. Solche Situationen sind ein natürlicher Prüfstand für das klassische „Cocktailparty-Problem“: wie Hörer es schaffen, sich auf eine Stimme unter vielen und gegen einen lauten Hintergrund zu konzentrieren. Bestehende Datensätze erfassen einige Aspekte dieser Herausforderung, basieren aber oft auf geskripteten Aufgaben, festen Lärmpegeln oder Teilnehmenden, die sich nicht kennen. GaMMA wurde so angelegt, dass es näher am wirklichen Leben ist: Alle 44 Teilnehmenden waren dänische Muttersprachler, die mit Freunden oder Familienmitgliedern sprachen, ohne vorgegebene Themen oder Rollen, und mit Hintergrundlärm, der von leisem Raumrauschen bis zu lebhaftem, restaurantähnlichem Gemurmel reichte – einschließlich einer Bedingung, in der der Lärmpegel langsam anstieg und wieder abfiel.

Sehen, Hören und Sich-Bewegen zusammen

Um die vielfältigen Signale aufzuzeichnen, die Gespräche von Angesicht zu Angesicht prägen, trug jede Person drei Gerätearten: leichte Eye-Tracking-Brillen zur Aufzeichnung der Blickrichtung, winzige In-Ear-Mikrofone, die das am Ohr ankommende Signal erfassen, und ein kleines, am Kopf getragenes Mikrofon nahe dem Mund, um die eigene Sprache klar aufzunehmen. Acht Infrarotkameras im Raum verfolgten Markierungen an den Brillen, sodass das Team die Kopfposition und -ausrichtung jedes Sprechers in 3D rekonstruieren konnte. Vier Lautsprecher rund um den Tisch spielten das Hintergrundgemurmel in genau kontrollierten Pegeln ab, und die Raumakustik wurde vermessen, damit künftige Nutzer des Datensatzes genau wissen, wie sich Schall im Raum verhält.

Aufnahmen machen, die dennoch natürlich wirken

Ein wichtiges Gestaltungsziel war, das Sprech‑ und Hörverhalten der Teilnehmenden nicht zu verändern. Standard-In-Ear-Mikrofone können den Gehörgang blockieren und subtil beeinflussen, wie wir unsere eigene Stimme hören, was den Sprechstil verändern kann. Das Team konfigurierte daher kommerzielle Hörgeräte-Mikrofone so um, dass sie mit minimaler Blockade im Ohr sitzen. Mit einem Mannequin-Kopf und präzisem Testequipment maßen sie, wie stark diese Mikrofone den Schall im Gehörgang veränderten, und entwarfen Filter, sodass die gespeicherte Audiodatei dem entspricht, was an einem echten Trommelfell ankommen würde. Die kopfnahen Mikrofone wurden ebenfalls kalibriert, damit die Sprachpegel zwischen den Teilnehmenden vergleichbar sind. Fragebogenantworten, die nach den Sitzungen erhoben wurden, deuten darauf hin, dass die Gespräche trotz der Ausrüstung und der Laborumgebung im Allgemeinen natürlich wirkten und das Setup nicht übermäßig aufdringlich war.

Das Chaos aufräumen

Rohaufnahmen aus so geschäftigen Szenen sind unordentlich: Mikrofone zeichnen Raumgeräusche, Gerätebrummen und die Stimmen mehrerer Personen zugleich auf. Um das Korpus nützlicher zu machen, stellen die Autorinnen und Autoren sowohl unverarbeitete als auch „gereinigte“ Versionen der Audios zur Verfügung. Ein modernes Deep‑Learning‑Verfahren reduziert das Hintergrundgemurmel, und eine adaptive Filtermethode unterdrückt das Übersprechen anderer Sprecher in den einzelnen Mikrofonen. Anschließend markiert ein Spracherkennungsdetektor, wann jede Teilnehmerin beziehungsweise jeder Teilnehmer spricht. Das Team prüfte systematisch, wie diese Verarbeitungsstufen die Signalqualität unter verschiedenen Bedingungen beeinflussen – etwa wenn nur die Trägerin oder der Träger sprach, wenn nur andere sprachen oder wenn mehrere Personen gleichzeitig überlappten – und stellte fest, dass der Lärm deutlich reduziert werden konnte, ohne die Hauptstimme merklich zu beeinträchtigen.

Ein Werkzeugkasten zum Studium realer Gespräche

Alle Daten sind so zeitlich aufeinander abgestimmt, wie es die Hardware zulässt, und in Standardformaten verteilt, zusammen mit Kalibrationsdateien und Dokumentation zu bekannten Einschränkungen wie geringfügigem Uhrdrift und gelegentlichen Lücken in der Blickverfolgung. Das Ergebnis sind mehr als neun Stunden Vier-Personen-Gespräche, jeweils aufgezeichnet in vier unterschiedlichen Lärm-Einstellungen, mit synchronisierter Sprache, Blick- und Bewegungsdaten. Für Wissenschaftlerinnen und Ingenieure bietet GaMMA eine seltene Gelegenheit, zu untersuchen, wie Menschen ihren Blick verschieben, ihre Sprache anpassen und das Sprechrecht in wirklich sozialen Situationen koordinieren. Für Leserinnen und Leser ohne Fachhintergrund lautet die Quintessenz: Das Verstehen und Verbessern von Kommunikation in lauten Umgebungen erfordert, die volle Komplexität dessen anzunehmen, wie wir gemeinsam sprechen, zuhören, schauen und uns bewegen – und dieser Datensatz ist ein bedeutender Schritt in Richtung dieses Ziels.

Zitation: Dourado, M., Gert Hassager, H., Udesen, J. et al. The GaMMA corpus of Danish polyadic conversations with gaze speech and motion data in quiet and noise. Sci Data 13, 494 (2026). https://doi.org/10.1038/s41597-026-06851-x

Schlüsselwörter: Cocktailparty-Effekt, multimodale Konversation, Sprache im Lärm, Blickverfolgung, Datensatz für Hörforschung