Clear Sky Science · zh
GaMMA 语料库:包含凝视、语音与运动数据的丹麦语多方对话,涵盖安静与噪声环境
为什么嘈杂对话很重要
如果你曾在热闹的咖啡馆里与朋友交谈,就会体会到跟上谈话脉络有多困难。然而,科学家对语音与听觉的大多数了解仍来自单一话者的整洁实验室研究。本文介绍 GaMMA 语料库——一个大型且可免费获取的丹麦语群体对话集合,记录了人们说话内容、视线位置、头部运动以及周围嘈杂声强的精细测量数据。该语料库为希望构建更好助听器、更智能通信设备以及更真实地模拟日常噪声中人类交流的研究者提供了一个实验平台。

鸡尾酒会中的对话
研究人员聚焦于“多方”对话——四个人一起聊天,轮流发言、打断、发笑,有时还会互相叠话。这类情境是经典“鸡尾酒会问题”的自然试验场:听者如何在多声源与嘈杂背景中聚焦到某个声音。现有数据集虽捕捉到该挑战的部分方面,但常依赖脚本化任务、固定噪声强度或彼此不熟悉的参与者。GaMMA 的设计更贴近真实生活:44 位参与者均为丹麦母语者,与朋友或家人交谈,无指定话题或角色,背景噪声从安静的房间嗡鸣到类似餐厅的热闹杂声不等,另有一组条件下噪声强度缓慢起伏。
一起看、听与移动
为捕捉塑造面对面对话的丰富信号混合,每位参与者佩戴三类设备:轻便的眼动追踪眼镜以记录视线位置、微小的耳内麦克风以捕捉到达耳朵的声音,以及靠近嘴部的小型头戴麦克风以清晰录下自身语音。房间内的八台红外摄像机跟踪眼镜上的标记,以便重建每位说话者在三维空间中的头部位置和朝向。围绕桌子的四个扬声器以精确控制的强度播放背景人声喧哗,并测量了房间声学特性,以便数据集未来使用者准确了解声音在空间中的传播情况。
让录音仍感觉自然
一个重要的设计目标是避免改变人们说话和聆听的方式。标准的耳内麦克风可能堵塞耳道,细微地改变我们听到自己声音的方式,从而影响说话风格。研究团队因此对商用助听器麦克风进行了重新配置,使其在耳内尽量减少堵塞。他们使用人头模与精密测试设备测量这些麦克风对耳道中声音的影响,并设计了滤波器,使存储的音频尽可能接近真实鼓膜所能接收到的声波。同时对头戴麦克风进行了校准,以确保不同参与者的语音强度可比。会后收集的问卷显示,尽管佩戴了设备并在实验室环境中录制,大多数人仍认为对话很自然,且设备并未造成过度干扰。

清理混乱的录音
来自此类繁忙场景的原始录音往往很混乱:麦克风会同时拾取房间噪声、设备嗡鸣和多个人的声音。为提高语料库的可用性,作者同时提供未处理和“清理”后的音频版本。现代深度学习算法用于降低背景喧哗,自适应滤波方法抑制他人声音对每个麦克风的溢入。随后语音活动检测器标注出每位参与者的发言时段。团队系统地检验了这些处理步骤在不同条件下(例如仅佩戴者发言、仅他人发言或多人重叠发言时)对信号质量的影响,发现可以在不显著损害主要声音的前提下大幅降低噪声。
用于研究真实对话的工具包
所有数据均按硬件允许的精度进行时间对齐,并以标准格式分发,随附校准文件和关于已知局限(如微小的时钟漂移与偶发的眼动追踪缺失)的文档。结果是超过九小时的四人对话录音,每段在四种不同噪声设置下记录,并同步提供语音、凝视与运动数据。对于科学家与工程师,GaMMA 提供了研究人们如何在真正的社交情境中转移视线、调整讲话与协调轮替发言的难得机会。对普通读者而言,结论是:要理解并改善嘈杂场所中的交流,就必须接纳我们如何共同说话、倾听、注视与移动的全部复杂性——而该数据集朝着这个目标迈出了重要一步。
引用: Dourado, M., Gert Hassager, H., Udesen, J. et al. The GaMMA corpus of Danish polyadic conversations with gaze speech and motion data in quiet and noise. Sci Data 13, 494 (2026). https://doi.org/10.1038/s41597-026-06851-x
关键词: 鸡尾酒会效应, 多模态会话, 噪声中的语音, 凝视追踪, 听力研究数据集