Clear Sky Science · ja
人間は上昇・下降するピッチを検出するために正と負のスペクトロテンポラル相関を利用できる
音が上下に動くのを脳はどう聞き取るか
誰かの声で疑問を認識したり、お気に入りの曲のメロディーを追ったりするとき、耳と脳は時間の経過に伴うピッチの上がり下がりを追跡しています。本研究は驚くべき問いを投げかけます:私たちの脳は、目が動きを見るときに使うのと同じ種類の運動検出トリックを使ってこれを行っているのだろうか?新たに設計した音響刺激と脳イメージング検査を用いて、著者らは明確な音高がない音でも人はピッチ運動を聞き取れることを示し、聴覚における新しい錯覚と聴覚と視覚に共通するアルゴリズムを明らかにしました。

明確な音階なしで聞く運動
日常の音では、上昇や下降するピッチはしばしば明確な「基本周波数」に結びついています—私たちが歌ったり楽器で鳴らしたりする基本の音です。しかし著者らは、この明白な音高情報を意図的に欠いた特殊な音を作成しました。安定したトーンの代わりに、多数の周波数が密に存在し、それらの音量が時間に沿って協調して変化する密な周波数雲を用いました。これらのパターンは周辺の周波数と時間の局所的な関係、すなわちスペクトロテンポラル相関を生み出しました。聴取者は各音を2秒間聞き、その音が全体として上がっているか下がっているかを報告しました。
方向が逆になる新しい聴覚錯覚
隣接する周波数が時間–周波数グリッド上で上向きの斜めに沿って同時に大きくなったり小さくなったりする傾向があると、人々はその音のピッチが上がっていると報告しました。斜めが下向きだと下降を報告しました。驚きは研究者らがそのパターンを反転させたときに起きました:隣接する周波数が交互に変化するようにし、片方が大きくなるともう片方が小さくなる—いわゆる「負の」相関です。この場合、上向きに傾いたパターンはピッチの下降として聞こえ、下向きに傾いたものは上昇として聞こえました。これは、コントラストを反転させ続ける動くパターンが逆方向に動いて見えることで知られる視覚の錯視「リバースファイ(reverse-phi)」に相当します。人々が聴くピッチ運動の強さはこれらの相関がどれだけ強く存在するかに滑らかに依存しており、効果は情報が両耳に分配されている場合でも成り立ち、脳が両側からの信号を統合していることを示しました。
周波数と時間の微小なずれにチューニングする
この仕組みの詳細を調べるため、チームは密なノイズからまばらな「ピップ」音へと移行しました:周波数と時間に散らばった短いビープです。彼らは、周波数で小さくジャンプし短い遅延でずれた2つのピップのペアを作り、再びその2つがともに大きいかともに小さいか、あるいは音量が反対かを制御しました。遅延と周波数ジャンプの大きさを変えることで、被験者は2番目のピップが約40ミリ秒後に続き、約1/15オクターブだけシフトする場合にピッチ方向に最も敏感であることが分かりました—非常に小さな変化です。重要なのは、聞き手は大–大の組み合わせだけでなく、4つすべての大きい/小さいの組み合わせに敏感だったことです。単純な対の規則性を含まないより複雑な3ピップパターンでも運動を知覚し、これは動物の視覚での類似の発見と呼応します。これらすべては、長く続くトーンを追跡するのではなく、変化の細かな局所パターンを読み取るシステムを示しています。

対立するピッチ検出器の脳の署名
次に研究者らは、この計算が脳内でどのように組織されているかを問いかけました。機能的MRIを用いて、被験者が単純な上昇音、下降音、またはその両方を同時に鳴らした混合刺激を聞いている間の聴覚皮質の活動を測定しました。もし脳が上向きと下向きのピッチ運動に調整された別個のニューロン群を持ち、それらが互いに拮抗するなら、混合刺激はそれらの活動を部分的に打ち消すはずです。まさにその通りの結果が観察されました:左右両側の聴覚皮質のいくつかの領域は上昇音および下降音単独には強く反応しましたが、混合刺激には反応が弱まりました。この「対立」パターンは視覚系で知られている運動処理回路と密接に一致し、音の相関を反転させると知覚方向が反転する理由を自然に説明します。
研究室の錯覚から日常の発話・音楽へ
最後にチームは、これらの抽象的なパターンが実生活で意味を持つかどうかを調べました。英語と中国語(北京語)の数時間分の発話を解析し、各録音を時間–周波数マップに変換して、視覚運動で用いられるものと似たアルゴリズムを使ってトーンが上がっているか下がっているかを測定しました。次に実験室で調べたのと同じ4つの局所的強度パターンを探しました。両言語とも、隣接する周波数が一緒に変化するパターンは上昇または下降のトーンと一致する傾向があり、一方で交互に変化するパターンは逆の方向の運動を予測しました。言い換えれば、自然な発話における正および負のスペクトロテンポラル相関はピッチの変化を確実に示していました。これらの微妙な局所パターンに対する聴覚系の感受性は、実験室で錯覚を生むような奇妙な性質ではなく、日常の複雑な音景から意味や旋律を効率的に読み取るための合理的な手段であることを示唆しています。
引用: Vaziri, P.A., McDougle, S.D. & Clark, D.A. Humans can use positive and negative spectrotemporal correlations to detect rising and falling pitch. Nat Hum Behav 10, 417–433 (2026). https://doi.org/10.1038/s41562-025-02371-7
キーワード: ピッチ知覚, 聴覚運動, 発話イントネーション, 聴覚皮質, 感覚の錯覚