Clear Sky Science · ja

畳み込みニューラルネットワークモデルは聴覚皮質の局所回路の符号化部分空間を記述する

2026-02-23 · 一覧に戻る

コンピュータはどのようにして世界の音を助けてくれるか

日常生活は重なり合う音に満ちている：声、音楽、足音、交通音が同時に耳に押し寄せる。脳はこの雑多な音をたやすく分離するが、聴覚皮質が用いる正確な仕組みはまだ不明確だ。本研究は、音声や画像認識に使われるのと同様の最新の深層学習ツールが、脳細胞が注目する音の特徴と、それらの特徴が局所回路の中でどのように組織されているかを明らかにできることを示す。

自然な音風景から脳活動へ

研究者たちは、覚醒したフェレットの聴覚皮質から数千の個々のニューロンの電気活動を記録した。動物が膨大なライブラリの自然音――音声の断片、音楽、環境雑音、動物の鳴き声――を聴いている間のことである。単純な音よりもこの豊かな音素材を選んだのは、日常の聴覚の複雑さによりよく対応させるためだ。各音をスペクトログラム（時間にわたる周波数ごとのエネルギー分布を示す時間–周波数画像）に変換し、畳み込みニューラルネットワーク（CNN）を訓練して、各ニューロンがミリ秒単位でどのように発火するかを予測した。他の感覚領域と同様、この深層ネットワークは、各ニューロンが単一の固定“フィルター”を通して聞いていると仮定する古典的な線形モデルを上回る性能を示した。

深いモデルを単純な音空間に平坦化する

高性能のCNNはしばしばブラックボックスだと批判される：データには合うが解釈が難しい。これに対処するために、著者らは各ニューロンに対して深層モデルを単純で低次元の音空間に「平坦化」する方法を開発した。まず、入力スペクトログラムのごく小さな変化がそのニューロンに対するCNNの出力をどのように変えるかを調べ、各時点で動的受容野を計算した。これにより、モデルの予測が最近の音にどのように依存するかを捉えた時々刻々の多数のフィルター群が得られる。次に統計的手法を用いてこれら多数のフィルターを数個の主成分（通常は3〜13程度）で要約し、これらが合わせてニューロンのチューニング部分空間を定義した：すなわち実際にその活動に影響する小さな音パターン群である。

共有空間での非線形応答を読み取る

一度音がニューロンのチューニング部分空間に射影されると、研究チームはこの縮約空間内の位置に応じて発火率がどのように変化するかを測定し、部分空間受容野と呼ぶ表面を形成した。これらの表面はしばしば曲がりくねり、複数のピークを持ち、単純なモデルでは見逃しがちな豊かな非線形挙動を明らかにした：あるニューロンは複数の異なる音パターンに強く反応し、別のニューロンはある次元に沿った正負の偏差の両方に応答し、さらに多くは抑制領域に囲まれた鋭い感度のポケットを示した。重要なのは、部分空間射影と控えめな非線形読み出しだけを用いた新しいモデルが、元のCNNとほぼ同等に神経活動を予測し、CNNが説明した分散の95%以上を捉えたことである。これは、深層モデルの複雑さが各ニューロンが「何を聞いているか」をコンパクトで解釈可能な記述に蒸留できることを示す。

近隣ニューロンはどのように役割を分け合うか

記録が同じ皮質柱に沿った多数のニューロンに及んでいたため、著者らは局所集団が音の符号化の仕事をどのように分担しているかを調べることができた。ある部位のニューロンは大部分が同じチューニング部分空間に居ることがわかった：それらの好ましい音パターンは共通の低次元特徴群から引かれており、初期段階からの共通入力を反映している可能性が高い。しかしその共有空間内で、各ニューロンの高活動領域は小さなパッチにすぎず、これらのパッチの重なりはランダムに散らばった場合と大差なかった。言い換えれば、近接するニューロンは似た種類の音を聞くが、異なる特定の組み合わせに強く反応し、空間をスパースにタイル状に分割している。この配置は、隣接する細胞が最良周波数などの広い嗜好を共有していても、同じ自然音に対してしばしば非常に異なる発火を示す理由を説明する。

細胞タイプの違いと役割の違い

研究チームはスパイク波形や記録深度の違いも利用して、推定された興奮性ニューロンと抑制性ニューロンを区別し、それらを皮質層に割り当てた。狭いスパイクで識別される抑制性細胞は、部分空間受容野がより広く、共有された音空間のより大きな領域にわたって応答する傾向があった。その非線形チューニングは、ある次元に沿ったいずれの方向への大きな変動でも強い応答が生じるような“鉢（ボウル）状”の形を取りやすかった。対照的に、興奮性細胞はより狭い入力範囲に限定されたピーク状、丘状のチューニングを示すことが多かった。これらのパターンは、広くチューニングされた抑制性ニューロンが、より狭くチューニングされた興奮性の近隣細胞群の中でスパースで選択的なコードを形成するのを助け、その効果のバランスが皮質の層ごとに変わるという構図を支持する。

この枠組みが重要な理由

本研究は、脳データに直接訓練された深層ニューラルネットワークを、感覚ニューロンが何を符号化しているか、局所回路がどのように組織されているかについての直感的な地図に翻訳できることを実証している。多くの近傍ニューロンの応答の基盤に小さな共有音特徴群があり、個々の細胞がその空間内で異なるニッチを切り開くことを示すことで、本研究は聴覚皮質におけるスパース符号化、ゲイン制御、不変性を考えるための具体的な枠組みを提供する。より広くは、同じ“平坦化”戦略は他の脳領域にも適用可能であり、強力だが不透明な深層学習モデルを、自然な神経回路が行う計算に関する明確な仮説に変えることができる。

引用: Wingert, J.C., Parida, S., Norman-Haignere, S.V. et al. Convolutional neural network models describe the encoding subspace of local circuits in auditory cortex. Nat Neurosci 29, 876–887 (2026). https://doi.org/10.1038/s41593-026-02216-0

キーワード: 聴覚皮質, 畳み込みニューラルネットワーク, 神経エンコーディング, スパース符号化, 感覚部分空間