Clear Sky Science · fr

Le corpus GaMMA de conversations polyadiques danoises avec données de regard, de parole et de mouvement en silence et en bruit

· Retour à l’index

Pourquoi les conversations bruyantes comptent

Si vous avez déjà essayé de discuter avec des amis dans un café animé, vous savez combien il peut être difficile de suivre le fil de la conversation. Pourtant, la plupart des connaissances scientifiques sur la parole et l'audition proviennent encore d'expériences de laboratoire bien ordonnées avec un seul locuteur à la fois. Cet article présente le corpus GaMMA, une vaste collection librement accessible de conversations de groupe de type réel en danois, enregistrées avec des mesures fines de ce que les gens disent, vers où ils regardent, comment ils bougent la tête et quelle est l'intensité du brouhaha environnant. Il a été conçu comme un terrain d'expérimentation pour les chercheurs souhaitant concevoir de meilleurs appareils auditifs, des dispositifs de communication plus intelligents et des modèles plus réalistes de la façon dont nous parlons dans le bruit quotidien.

Figure 1
Figure 1.

Parler à la fête cocktail

Les chercheurs se concentrent sur les conversations « polyadiques » — quatre personnes qui discutent ensemble, se relaient, s'interrompent, rient et parfois parlent en même temps. Ces situations constituent un banc d'essai naturel pour le classique « problème de la fête cocktail » : comment les auditeurs parviennent à se focaliser sur une voix parmi d'autres et malgré un fond bruyant. Les jeux de données existants captent certains aspects de ce défi, mais ils reposent souvent sur des tâches scénarisées, des niveaux de bruit fixes ou des participants qui ne se connaissent pas. GaMMA a été conçu pour se rapprocher de la vie réelle : les 44 participants étaient tous locuteurs natifs du danois parlant avec des amis ou des membres de leur famille, sans sujets ou rôles assignés, et avec un bruit de fond allant du bourdonnement tranquille d'une pièce à un brouhaha animé de type restaurant, ainsi qu'une condition où le niveau de bruit montait et descendait lentement.

Voir, entendre et bouger ensemble

Pour capturer le riche mélange de signaux qui façonnent la conversation en face à face, chaque personne portait trois types d'équipements : des lunettes légères de suivi oculaire pour enregistrer où elle regardait, de minuscules microphones intra-auriculaires pour capter ce qui parvenait à leur oreille, et un petit microphone porté sur la tête près de la bouche pour enregistrer clairement leur propre parole. Huit caméras infrarouges dans la salle ont suivi des marqueurs sur les lunettes afin que l'équipe puisse reconstruire la position et l'orientation de la tête de chaque locuteur en 3D. Quatre haut-parleurs disposés autour de la table diffusaient le brouhaha de fond à des niveaux soigneusement contrôlés, et l'acoustique de la pièce a été mesurée afin que les futurs utilisateurs du jeu de données sachent exactement comment le son se comportait dans l'espace.

Réaliser des enregistrements qui restent naturels

Un objectif de conception majeur était d'éviter de modifier la façon dont les gens parlent et écoutent. Les microphones intra-auriculaires standard peuvent obstruer le conduit auditif et altérer subtilement la perception de notre propre voix, ce qui peut changer notre façon de parler. L'équipe a donc reconfiguré des microphones commerciaux d'aide auditive pour les placer dans l'oreille avec un blocage minimal. Ils ont utilisé une tête mannequin et un équipement de test précis pour mesurer dans quelle mesure ces microphones modifiaient le son dans le conduit auditif et ont conçu des filtres de sorte que l'audio stocké corresponde étroitement à ce qui atteindrait un tympan réel. Ils ont également calibré les microphones portés sur la tête afin que les niveaux de parole soient comparables entre les participants. Les réponses aux questionnaires recueillies après les sessions suggèrent que, malgré le matériel et le cadre de laboratoire, les participants ont généralement trouvé leurs conversations naturelles et que l'installation n'était pas excessivement intrusive.

Figure 2
Figure 2.

Nettoyer le chaos

Les enregistrements bruts de scènes aussi animées sont désordonnés : les microphones captent le bruit de la pièce, le bourdonnement des machines et les voix de plusieurs personnes à la fois. Pour rendre le corpus plus utile, les auteurs fournissent des versions non traitées et des versions « nettoyées » de l'audio. Un algorithme moderne d'apprentissage profond réduit le brouhaha de fond, et une méthode de filtrage adaptatif supprime la contamination par la voix d'autres locuteurs dans le microphone de chaque personne. Un détecteur d'activité vocale marque ensuite quand chaque participant parle. L'équipe a vérifié systématiquement comment ces étapes de traitement affectaient la qualité du signal dans différentes conditions — par exemple lorsque seul le porteur parlait, lorsque seules les autres personnes parlaient, ou lorsque plusieurs personnes se chevauchaient — et a constaté que le bruit pouvait être réduit de manière substantielle sans nuire de façon notable à la voix principale.

Une boîte à outils pour étudier les conversations réelles

Toutes les données sont alignées temporellement aussi précisément que le matériel le permet et distribuées dans des formats standard, accompagnées de fichiers d'étalonnage et de documentations sur des limitations connues telles que de faibles dérives d'horloge et des lacunes occasionnelles dans le suivi oculaire. Le résultat représente plus de neuf heures de conversations à quatre personnes, chacune enregistrée à quatre niveaux de bruit différents, avec parole, regard et mouvement synchronisés. Pour les scientifiques et les ingénieurs, GaMMA offre une opportunité rare d'étudier comment les gens déplacent leur regard, ajustent leur parole et coordonnent la prise de parole dans des contextes véritablement sociaux. Pour le grand public, la conclusion est que comprendre et améliorer la communication dans des lieux bruyants exige d'embrasser la complexité complète de la façon dont nous parlons, écoutons, regardons et bougeons ensemble — et ce jeu de données constitue une avancée significative en ce sens.

Citation: Dourado, M., Gert Hassager, H., Udesen, J. et al. The GaMMA corpus of Danish polyadic conversations with gaze speech and motion data in quiet and noise. Sci Data 13, 494 (2026). https://doi.org/10.1038/s41597-026-06851-x

Mots-clés: effet cocktail, conversation multimodale, parole dans le bruit, suivi du regard, jeu de données pour la recherche sur l'audition