Clear Sky Science · zh

人类可以利用正负光谱时序相关性来检测音高的上升与下降

2026-02-09 · 返回目录

我们的大脑如何听到音符的升降

当你在别人的话语中识别出疑问，或跟随最喜欢歌曲的旋律时，你的耳朵和大脑就在跟踪音高随时间的上升与下降。本研究提出了一个令人惊讶的问题：我们的脑是否使用与视觉检测运动时相同的技巧来检测听觉中的运动？通过精心设计的新型声音与脑成像实验，作者表明人们即便在没有明确音乐音符的声音中也能听出音高的运动，这揭示了一种新的听觉错觉以及听觉与视觉之间共享的算法。

在没有明确音符的情况下听到运动

在日常声音中，上升和下降的音高通常与明确的“基频”——我们用歌声或乐器演奏的基本音——相联系。但作者创造了故意缺乏这种明显音高信息的特殊声音。他们没有使用稳定的音调，而是用密集的多频率云，其响度随时间以协调的方式变化。这些模式在相邻频率与时间点之间产生了局部关系，称为光谱时序相关性。听者每次听两秒的声音，然后简单地报告整体上听起来是上升还是下降。

一种会翻转方向的新听觉错觉

当相邻频率在频率—时间网格上沿向上对角线一起变响或变弱时，人们可靠地报告声音的音高在上升；当对角线向下时，则报告音高在下降。惊奇之处在于研究者反转了这种模式：他们让相邻频率交替变化，即当一个变响另一个变弱——一种“负相关”。在这种情况下，向上倾斜的模式被听成音高下降，而向下倾斜的模式被听成上升。这相当于一种著名的视觉错觉“反相菲”（reverse-phi），其中不断翻转对比度的移动图案会被感觉为朝相反方向移动。人们感知到的音高运动强度随这些相关性存在的强弱平滑变化，而且即便信息分布在双耳之间，这种效应仍然起作用，表明大脑会结合来自左右两侧的信号。

对极小频率与时间位移的调谐

为探究该机制的细节，研究团队从密集噪声转向稀疏的“滴答”声音：在频率与时间上散布的短促哔声。他们创建了成对的滴答，这对之间在频率上有小幅跳跃并有短暂延迟，再次控制这两者是同时响、同时静，还是响与静相反。通过改变延迟和频率跳跃的大小，他们发现当第二个滴答大约在40毫秒后跟随且频率仅改变约1/15个八度时，人们对音高方向最敏感——这是一个非常小的变化。关键是，听者不仅对“响—响”对敏感，还对四种响与静组合都很敏锐。他们在更复杂的三滴答模式中也能听出运动，这些模式不包含简单的成对规则，这与动物视觉中的类似发现相呼应。所有这些结果都指向一个读取细粒度局部变化模式的系统，而不是追踪持续存在的音调。

对立的音高探测器在大脑中的特征

研究者接着探问这种计算在大脑中可能如何组织。他们使用功能性磁共振成像测量听觉皮层在被试听到简单上升音、下降音或同时播放的混合音时的活动。如果大脑使用分别调谐于上升与下降音高运动并相互对抗的神经元集合，那么混合刺激应部分抵消它们的活动。这正是他们观察到的：听觉皮层两侧的若干区域对单独的上升与下降音反应强烈，但对混合音的反应较弱。这种“对抗”模式与已知的视觉运动处理回路非常吻合，并自然解释了为什么在声音中翻转相关性会翻转感知方向。

从实验室错觉到日常语音与音乐

最后，团队探问这些抽象模式在现实生活中是否真正重要。他们分析了数小时的英语与普通话语料，将每段录音转换为时频图并测量音调的上升或下降，使用与视觉运动类似的算法。然后他们在这些图中寻找实验室研究的那四种局部强度模式。两种语言中，相邻频率一起变化的正相关模式倾向于与音调上升或下降同时出现，而交替模式则预测相反方向的运动。换言之，自然语音中正负光谱时序相关性都可靠地传达了音高如何变化。研究结果表明，听觉系统对这些微妙局部模式的敏感性——包括在实验室中会产生错觉的那些——并非偶然，而是一种高效的方式，用于从日常生活复杂的声景中解码意义与旋律。

引用: Vaziri, P.A., McDougle, S.D. & Clark, D.A. Humans can use positive and negative spectrotemporal correlations to detect rising and falling pitch. Nat Hum Behav 10, 417–433 (2026). https://doi.org/10.1038/s41562-025-02371-7

关键词: 音高感知, 听觉运动, 语调, 听觉皮层, 感官错觉