Clear Sky Science · fr

Multi-TPC : un jeu de données multimodal pour des conversations à trois avec parole, mouvement et regard

· Retour à l’index

Pourquoi la façon dont nous bougeons et regardons en parlant importe

Lorsque des personnes parlent en face à face, elles font bien plus quéchanger des mots. On se penche en avant, on hoche la tte, on se jette des regards, et on marque des pauses aux endroits appropriés. Ces gestes subtils prennent encore plus dimportance quand trois personnes conversent ensemble, car lattention et les tours de parole changent constamment. Pourtant, jusquici, scientifiques et ingénieurs disposaient de très peu de donnes de haute qualit montrant comment la parole, le mouvement du corps et le regard sentrelacent dans des conversations en petit groupe. Cet article prsente un nouveau jeu de donnes conu pour combler cette lacune et aider concevoir des assistants virtuels, des robots sociaux et des outils dtude des interactions humaines quotidiennes plus naturels.

Une nouvelle fentre sur les conversations trois personnes

Les auteur·rice·s prsentent Multi-TPC, une collection publique de conversations trois personnes enregistres en laboratoire laide de capture de mouvement, de traceurs oculaires et de microphones individuels. Contrairement de nombreuses ressources antrieures centres sur un seul locuteur ou sur des conversations entre deux personnes, Multi-TPC saisit des discussions spontanes entre trois inconnu·e·s qui se tiennent en triangle et parlent du sujet de leur choix. Plus de 5,3 heures denregistrements provenant de 21 jeunes adultes sont incluses, réparties en 24 sessions. Pour chaque instant de ces conversations, le jeu de donnes fournit des informations dtailles sur la faon dont chaque personne parle, bouge son corps et dirige son regard.

Figure 1
Figure 1.

Comment les conversations ont t captures

Pour crer ce jeu de donnes, lquipe a mis au point un dispositif denregistrement hybride. Chaque participant portait une combinaison de capture de mouvement intgrale pare9e de marqueurs rflchissants afin quun rseau de huit camras puisse suivre leur posture, les mouvements de tte et les gestes en trois dimensions. Des lunettes légères de suivi oculaire, proches en sensation de lunettes ordinaires, mesuraient o chaque personne regardait dans son champ visuel. Des micros sans fil fixs prs du cou enregistraient la voix de chaque locuteur sur une piste audio sparee. Avant lenregistrement, les participant·e·s taient calibrs dans le systme et pris de rester aux emplacements fixes formant un triangle quilatral denviron un mtre de ct. Une claquette, visible des camras, des traceurs oculaires et des micros, fournissait un repre temporel prcis pour aligner tous les appareils, garantissant que mouvement, regard et parole puissent tre apparis image par image.

Nettoyage, organisation et enrichissement des donnes

La collecte des signaux bruts ntait que la premire tape. Les chercheur·euse·s ont soigneusement trait les donnes de mouvement, tiquetant tous les marqueurs et comblant de petites interruptions par interpolation mathmatique tout en vrifiant les positions des marqueurs voisins. Les enregistrements audio ont t nettoys laide de mthodes de rduction du bruit, puis transmis un logiciel de reconnaissance vocale pour produire des transcriptions mot mot, ensuite corriges manuellement. Les points de regard mesurs en pixels de camra ont t convertis en angles 3D indiquant o chaque personne regardait dans lespace. Tous les signaux ont t rechantillonns 60 images par seconde et synchroniss, puis stocks dans des formats ouverts et simples. Le jeu de donnes final est organis par modalit—mouvement, regard, audio, mots et caractéristiques prosodiques telles que lintensit et la hauteur—avec des rgles claires de nommage des fichiers afin que les chercheur·euse·s puissent facilement retrouver nimporte quel instant dans le temps pour les trois participant·e·s.

Figure 2
Figure 2.

Ce que le jeu de donnes rvle sur la conversation de groupe

Avec Multi-TPC, les auteur·rice·s ont effectu un premier tour statistique de la manire dont se droulent les conversations trois personnes. Ils ont mesur les tours de parole et les silences, constatant quun tour de parole typique dure environ 2,7 secondes, spar d pauses dun peu plus dune seconde. Ils ont galement examin les hochements et mouvements de tte comme formes de rtroaction de lauditeur, dtectant en moyenne environ un quart de hochement ou de secousse par seconde—preuve que les auditeur·rice·s signalent constamment attention et attitude sans prononcer un mot. Lanalyse du regard a montr que les personnes fixent rarement directement le visage dun autre longtemps. Elles regardent souvent un peu ct, et leurs patrons de regard varient selon qui parle, sil y a une pause ou si plusieurs personnes parlent en mme temps. Lors de chevauchements de parole, les regards des participant·e·s deviennent plus quitablement rpartis ou sloignent des deux partenaires, suggrant une incertitude quant qui tient la parole.

Pourquoi cette ressource compte pour la technologie future

En regroupant toutes ces couches dinformation dans un jeu de donnes bien document et partageable, Multi-TPC offre une nouvelle base pour tudier comment les petits groupes grent la prise de parole, lattention et la rtroaction travers les mots et le mouvement. Pour le grand public, la leon est que la danse de la conversation—qui parle quand, qui regarde o, et comment de subtils hochements structurent le flux—est maintenant capture en dtails fins. Pour les scientifiques et dveloppeur·euse·s, cela ouvre la porte la cration de personnages virtuels et de robots sociaux qui rpondent davantage comme de vraies personnes en contexte de groupe, ainsi qu des tudes plus approfondies sur la faon dont nous nous coordonnons par la voix, le corps et le regard.

Citation: Lee, MC., Deng, Z. Multi-TPC: A Multimodal Dataset for Three-Party Conversations with Speech, Motion, and Gaze. Sci Data 13, 429 (2026). https://doi.org/10.1038/s41597-026-06819-x

Mots-clés: conversation multimodale, gestes et regard, jeu de données dinteraction sociale, prise de parole, agents virtuels