Clear Sky Science · zh

Kymata Soto 语言数据集:用于自然语言处理的脑电-磁脑图数据集

· 返回目录

窃听大脑如何听真实对话

我们日常说与听的大部分内容是随意的对话,而非单词或精读的句子。但许多语言领域的大脑研究长期依赖人工任务。Kymata Soto 语言数据集改变了这一点,提供了一套丰富的开放脑电记录,记录对象是在静听英语和俄语的生动电台讨论时的大脑活动,为科学家提供了一个强有力的新窗口,来研究大脑如何处理自然语音。

面向真实语音的大脑反应新库

本项目汇集了两种先进的大脑记录方法——脑电图(EEG)和脑磁图(MEG),覆盖35名成年志愿者:20名以英语为母语的被试和15名以俄语为母语的被试。被试在安静坐着、聆听各自语言约六分半钟的电台风格对话时,研究人员以每秒一千次的采样率记录了他们的大脑活动。每位被试多次听到相同音频,使研究者能够在重复中求平均,从背景噪声中提取出大脑的可靠反应。结果是一份详细的、时间锁定的记录,显示人在跟随展开的讨论时大脑如何逐刻反应。

Figure 1
Figure 1.

关于冰淇淋与咖啡的对话

研究团队没有采用经典故事或人为句子,而是选择了引人入胜但日常的话题:为英语听众准备的冰淇淋历史和为俄语听众准备的哥伦比亚咖啡历史。这两段录音都来自 BBC 录音室讨论,涉及三位发言者(两名男性和一名女性)。对话被编辑为约400秒,并通过耳机以舒适音量播放。每次重复后,参与者会回答一到两个简单的多项选择题,足以保证他们保持注意并跟上内容,而非对他们进行严格测试。

让眼睛忙碌但让注意力在声音上

在听音过程中,参与者盯着屏幕中央的一个十字。其周围漂浮着颜色各异的点云,以看似随机的方式移动和变化。这些移动的点云有两个目的:一是帮助保持注视稳定,从而提高数据质量;二是创造受控的视觉运动与颜色模式,便于其他研究者日后分析。重要的是,这些点的运动并未与语音内容同步,因此它们并不“说明”故事或增添语义,而是提供了一个可与声音一起研究的一致视觉背景。

从原始脑信号到可用数据

研究人员对实验的每一部分进行了详细记录,并使用国际标准 BIDS 来组织数据集。每位志愿者都有原始的 EEG 与 MEG 记录、音频开始的时间标记、逐秒的视觉事件以及练习段。团队还提供了原始音频文件、完整转录本,以及每个单词乃至每个语音成分开始的精确时序。他们包含了脚本,以便他人能自动重现所用的精确音频片段。对于英语组,匿名化的 MRI 脑扫描也一并共享,以便将脑反应映射到个体解剖;而俄语组因未获许可共享 MRI 图像,故建议使用标准的平均脑模版。

Figure 2
Figure 2.

验证信号是否具有科学意义

为确保数据具有科学可靠性,作者进行了验证分析,重点检查大脑如何追踪随时间变化的声音响度。他们将音频转换为若干数学表征的“随时间变化的响度”,并检查大脑反应在何处、何时与这些响度模式对齐。对英语和俄语听众而言,大脑表现出相似的时序模式,这与先前研究的报告一致。这种跨语言及与既往研究的一致性是记录干净、可靠且可供他人继续使用的有力证据。

这对未来大脑与语言研究的意义

对于非专业读者,主要结论是该数据集是一个新的共享资源,使不同研究团队能够研究大脑如何处理真实、自然的言语。由于它是开放的、注释详尽且覆盖两种语言,它可以支持从关于我们如何理解对话的基础问题、语言间比较,到直接从大脑活动解码语音等雄心勃勃的项目。简而言之,Kymata Soto 语言数据集的目的不是回答单一问题,而是为科学界提供一个高质量的共享基础,以探索我们大脑如何理解充斥日常生活的对话。

引用: Yang, C., Parish, O., Klimovich-Gray, A. et al. Kymata Soto Language Dataset: an electro-magnetoencephalographic dataset for natural speech processing. Sci Data 13, 254 (2026). https://doi.org/10.1038/s41597-026-06579-8

关键词: 大脑与语言, 语音感知, EEG MEG, 自然对话, 开放神经影像数据