Clear Sky Science · ja
雑音下の注視・発話・運動データを伴うデンマーク語ポリディック会話のGaMMAコーパス
なぜ雑音下の会話が重要なのか
賑やかなカフェで友人と話そうとして、会話の流れを追うのがいかに難しいかを経験したことがあるなら、これは身近な問題です。しかし多くの音声・聴覚研究は依然として一度に一人の話者を扱う整然とした実験から得られた知見に頼っています。本稿はGaMMAコーパスを紹介します。これはデンマーク語による実生活に近い集団会話を大量に集めて公開したデータ集合で、発話内容、視線、頭部の動き、周囲の雑音の大きさを細かく測定して記録しています。補聴器や高度な通信機器の改良、日常の雑音下での会話モデル作成を目指す研究者にとっての実験場として設計されています。

カクテルパーティでの会話
研究者たちは「ポリディック」会話、すなわち4人が集まり順番に話し、相互に遮ったり笑ったり時には話が被ったりするような状況に着目しました。こうした状況は「カクテルパーティ問題」の自然な試験場です――多くの声や雑音の中で聞き手がいかに一つの声に集中するかという課題です。既存のデータセットはこの課題の一部を捉えていますが、台本に従ったタスクや一定の雑音レベル、互いに面識のない参加者に依存することが多いのが実情です。GaMMAはより現実に近づけるよう設計されました:44人全員がデンマーク語のネイティブで、友人や家族と自由に会話し、話題や役割の指定はなく、背景雑音は静かな室内のノイズからにぎやかなレストランのようなざわめき、さらに雑音レベルがゆっくり上下する条件まで含まれます。
見て、聞き、同時に動く
対面会話を形作る多様な信号を捉えるため、各参加者は三種類の機器を装着しました:視線の向きを記録する軽量のアイ・トラッキング眼鏡、耳に届く音を捉える小型のインイヤーマイク、そして自分の発話を明瞭に録るために口元近くに装着した小型のヘッドワーンマイクです。室内の八台の赤外線カメラは眼鏡に付けたマーカーを追跡し、各話者の頭部位置と向きを3次元で復元できるようにしました。テーブル周りに配置した四つのスピーカーが背景のざわめきを精密に制御したレベルで再生し、部屋の音響特性も測定しているため、将来このデータを使う研究者は空間内で音がどのように振る舞ったかを正確に知ることができます。
自然さを保った記録
設計上の主要な目標は、人々の話し方や聞き方を変えてしまわないことでした。標準的なインイヤーマイクは耳道をふさぎ自分の声の聞こえ方を微妙に変え、話し方に影響を与える可能性があります。そこでチームは市販の補聴器用マイクを最小限の閉塞で耳に収まるように再構成しました。マネキン頭部と精密な試験装置を用いてこれらのマイクが耳道内の音をどれだけ変えるかを測定し、記録音が実際の鼓膜に到達する音に近づくようフィルタを設計しました。さらにヘッドワーンマイクも校正して参加者間で発話レベルが比較可能になるようにしています。セッション後のアンケート回答は、機材や実験室の環境にもかかわらず、参加者は概ね会話が自然に感じられ、装置は過度に煩わしくなかったと報告していることを示しています。

混沌を整理する
こうした込み入った場面からの生録音は雑然としています:マイクは室内ノイズや機械のハム、複数人の声を同時に拾います。コーパスをより有用にするため、著者らは未加工音声と「クリーン化」された音声の両方を提供しています。最新のディープラーニングアルゴリズムが背景のざわめきを低減し、適応フィルタリング法が他の話者の音漏れを各参加者のマイクから抑制します。音声活動検出器が各参加者の発話時刻をマークします。チームはこれらの処理が、装着者のみが話す場合、他者のみが話す場合、複数人の発話が重なる場合など、異なる条件下で信号品質にどう影響するかを体系的に検査し、主たる声を目立って損なうことなく雑音を大幅に低減できることを確認しました。
実際の会話を研究するためのツールキット
すべてのデータはハードウェアの限界で可能な限り時間同期され、キャリブレーションファイルや小さなクロックドリフトや時折の視線追跡の欠落など既知の制限に関する文書とともに標準フォーマットで配布されます。結果として得られるのは、四人会話を各々四つの異なる雑音設定で記録した9時間超のデータで、発話、視線、運動が同期されています。科学者や技術者にとって、GaMMAは人々が視線をどのように変え、発話をどのように調整し、社会的な場面でターンテイキングをどのように協調するかを研究する稀な機会を提供します。一般読者にとっての要点は、雑音のある場所でのコミュニケーションを理解し改善するには、私たちが一緒に話し、聞き、見て、動くという複雑さ全体を受け入れる必要があり、このデータセットはその目標に向けた重要な一歩であるということです。
引用: Dourado, M., Gert Hassager, H., Udesen, J. et al. The GaMMA corpus of Danish polyadic conversations with gaze speech and motion data in quiet and noise. Sci Data 13, 494 (2026). https://doi.org/10.1038/s41597-026-06851-x
キーワード: カクテルパーティ効果, マルチモーダル会話, 雑音下の音声, 視線追跡, 聴覚研究データセット