Clear Sky Science · ja
視覚階層にわたり、対象とテクスチャの多様体に動的に整合するニューロンのチューニング
脳が「物」以上をどう見ているか
にぎやかな通りを一瞥すると、脳は車や顔、葉や影の入り混じった雑多な情報から瞬時に意味を抜き出します。しかし、個々の脳細胞は「車」や「顔」といったきれいなカテゴリに対してだけ発火するわけではありません。多くの場合、無関係に見える多数の画像に反応するため、これらの細胞が本当に何を指向しているのかは謎でした。本研究は高度な画像生成型人工知能を用い、単一ニューロンが好む画像を「設計」させることで、脳が詳細なテクスチャへの感度と全体としての物体認識とをどのように両立しているかを明らかにします。
二つの異なる視覚世界
研究者たちは視覚に異なる「アクセント」を持つ二つの強力な画像生成器を用いました。一つはDeePSimと呼ばれ、豊かなテクスチャやパターンを生成するのに優れていますが、生成画像には明確な認識可能な物体が欠けることが多い。もう一つ、BigGANは動物や道具のような明確な項目に満ちた、シャープで写真のような画像を作るよう訓練されています。これらの生成器を、可能な画像空間を切り分ける別様の手段として扱うことで、ニューロンがテクスチャ中心の見方に整合するか、物体中心の見方に整合するかを問いかけることができました。
ニューロンに自分の画像を選ばせる
マカクザルを用いた実験で、研究者たちは腹側視覚経路に沿ったニューロンの活動を記録しました。腹側視覚経路は、生の視覚情報を物体認識へと変換する一連の脳領域です。研究は三つの地点に焦点を当てました:V1(初期視覚皮質)、V4(中間領域)、およびPIT(後部下側頭皮質、高次領域)。実験中、各ニューロンの発火率が各生成器の画像空間を閉ループで探索する手がかりとなりました。高速の連続試行で、ニューロンに合成画像が提示され、より多くのスパイクを引き起こした画像が次の世代で生成器を同様の画像へと誘導します。多くの世代を経て、この「進化」によりテクスチャ空間と物体空間の両方で強く活性化する画像が生み出されました。 
全体像だけでなく隠れた局所特徴
驚くべきことに、あるニューロンがテクスチャ重視の空間と物体重視の空間で最適化されたとき、最終的な画像は全体的には異なって見えることが多いものの、似た位置に曲線状のエッジや色の斑などの特定の局所モチーフを共有していることがありました。深層ニューラルネットワークを用いた解析は、こうした対になる画像が特徴空間では、異なるニューロンのために最適化された画像よりも類似していることを確認しました。空間マップは、画像内の特定領域がニューロンの活動を最もよく予測していることを示し、多くの細胞は単一の厳密な物体テンプレートではなく、さまざまな場面に現れうる再利用可能な局所構成要素に反応していることを示唆しました。
テクスチャから物体へ移るバランスの変化
次に、各脳領域のニューロンが各画像空間内で強い応答に「登れる」容易さを調べました。初期領域であるV1とV4では、テクスチャ空間での最適化がより頻繁に成功し、より速く上昇し、物体空間よりも高いピーク応答に達しました。これは明確なテクスチャ優位を示します。一方、PITではニューロンは両方の空間で良好に機能しました:テクスチャ風にも物体風にも強く駆動されうる一方で、最適化の速度は両者でほぼ同等になりました。応答の時間経過を調べるとさらに興味深い点が出てきます。PITでは、テクスチャに基づく画像が初期の応答を高めやすく、物体に基づく画像はより遅く持続的な発火を強く引き出しやすく、物体志向の処理は時間的によりゆっくりと現れることを示唆します。
物体空間における選好の地図
これらの選好の微細な形状を探るために、研究者たちは物体生成器の潜在空間で「ヘッセ行列チューニング」実験を行いました。ニューロンが最適化された物体様画像で強い応答に達した後、その点の周りの多くの方向に沿って系統的に画像をサンプリングしました。最適化が本当に高いピークを見つけていた場合、ニューロンの発火は通常これらの方向に沿ってベル形の曲線を形成し、画像が好みのものから離れるにつれて上がりそして下がりました。最適化が強いピークに到達していないときは、チューニング曲線はよりランプ状に見えることが多かった。これは、ニューロンが狭いお気に入りを持つように見えるか、漸進的な好みを示すかが、可能な画像空間の膨大さをどれだけ徹底的に探索するかに依存することを示しています。 
視覚理解にとっての意味
総じて、本研究は腹側視覚経路を、当初はテクスチャを好み、徐々に物体構造にも同等に強い把握を獲得していく柔軟なシステムとして描きます。ニューロンは物体全体を不可分の単位として符号化するのではなく、多くの異なる場面に組み合わせ可能な再利用可能な局所特徴を優先しているようです。高次のPITニューロンは、視覚世界のテクスチャベースと物体ベースという両方の記述に整合しうる可塑性を持ち、これは現在の人工ネットワークがまだ苦戦している点です。一般読者に向けた主要なメッセージは、私たちの脳が単なる「物体検出器」ではないということです。脳は細かなテクスチャと全体的な形状の両方から意味を読み取る高度なパターン処理エンジンであり、豊かな視覚体験を支えるために空間と時間を通じて重点を切り替えます。
引用: Wang, B., Ponce, C.R. Neuronal tuning aligns dynamically with object and texture manifolds across the visual hierarchy. Nat Neurosci 29, 864–875 (2026). https://doi.org/10.1038/s41593-026-02207-1
キーワード: 視覚皮質, 物体認識, テクスチャ処理, 生成モデル, ニューロンのチューニング