Clear Sky Science · ja

人間のEEG表現整合を通じて人間の脳に近い視覚を実現する

· 一覧に戻る

この研究が重要な理由

現代の人工知能は写真中の物体をほぼ人間並みの精度で認識できますが、それでも私たちの脳が世界を「見る」やり方とは異なります。本研究は、被験者から記録した脳信号を用いてコンピュータビジョンシステムを調整する新しい手法を提示し、AIを人間に近い視覚理解へ一歩近づけます。視覚モデルを直接人間の脳活動で形作ることで、本研究は単に強力なだけでなく、我々の心により近い構造を備えた将来のAIの可能性を示唆しています。

Figure 1
Figure 1.

脳波で機械を教える

著者らが注目するのは単純だが大胆な発想です:視覚モデルを画像とラベルだけで訓練するのではなく、その画像に対して人間の脳がどのように反応するかも示してはどうか。彼らは電気脳図(EEG)を用います。EEGは被験者が画像を見ている間の頭皮上の微小な電位変化を測るものです。非侵襲的で比較的安価、かつ多数の試行で迅速に収集できます。10人の被験者について、各人が数万枚の自然物画像を見ている間のEEG信号が、画像出現後最初の0.2秒以内に記録された大規模な公開データセットを活用しました。

脳と整合した視覚ネットワークの構築

既存の深層視覚モデルCORnet-Sを出発点に、研究者たちは追加の「画像→脳」モジュールを加えました。画像がネットワークに入ると、モデルは同時に二つの課題をこなします:どの物体が存在するかを推定するとともに、その同一画像に対して実際の人間が示したEEGパターンを予測しようとします。このために、ネットワークの複数の内部層からの信号をEEGモジュールに集約し、短い時系列を生成して人間データに一致させることを学習させます。訓練中、モデルは正しい物体認識とEEG様活動の生成の両方で報酬を受け取り、その内部表現が人間の視覚系に似るように促されます。

複数の手法で脳活動により近づく

10名分の「ReAlnet」(各被験者ごとに1モデル)を訓練した後、これらのモデルが実際により脳に近くなったかを検証しました。手法としては表現類似性解析(representational similarity analysis)を用いて、モデル内部における画像間の関係パターンと人間のEEGで観察されるパターンを比較しました。50〜200ミリ秒の間の主要層と時点にわたって、ReAlnetは元のCORnet-Sや他の標準モデルより一貫して人間EEGに近く、ピークで約6%の向上、相対改善で最大40%程度の利益が見られました。重要なのは、訓練で使われていない新しい物体カテゴリに対してもその改善が持続したことで、整合が訓練セットを越えて一般化することを示しています。

Figure 2
Figure 2.

脳スキャンや行動への到達

重要な疑問は、モデルが単にEEGの特異性を学んだだけなのか、それとも人間の視覚についてより一般的な何かをとらえたのかという点です。これを検証するため、著者らは別の脳イメージングデータセットに目を向けました。別の被験者群がMRI装置内で自然画像、抽象図形、文字を見ているデータです。ReAlnetはこのデータを見たことがないにもかかわらず、内部パターンは元のモデルよりいくつかの視覚脳領域からの信号により近く一致しました。さらに、EEGとMRIの改善度はモデル間で強く相関しており、共通のコア表現が強化されたことを示唆します。研究者たちはまた、難易度の高い物体認識課題においてモデルと人間がどれだけ似た誤りをするかも評価しました。ここでもReAlnetはベースラインモデルより人間の行動とより良く整合しました。

個別化されかつ一般化する脳に似た視覚

各ReAlnetは一人分のEEGに合わせて調整されているため、著者らは個人差を調べることができました。彼らは、個別化されたモデルほど深い層で互いにより乖離することを見いだし、これは人々の違いが初期視覚領域から高次視覚領域へと進むにつれて大きくなるという知見と呼応します。それでも各個人のモデルは未調整のベースラインより他者のEEGへよりよく一般化し、共有される構造と被験者固有の構造の両方を捉えていることを示しました。チームは同様の枠組みを別のアーキテクチャであるResNet18にも拡張し、EEG、MRI、および(やや限定的ながら)行動との整合が改善するのを確認しました。これはこのアプローチが単一のモデル設計に限定されない柔軟性を持つことを示唆します。

日常的理解における意味

専門外の読者にとっての要点は、非侵襲的な人間の脳計測を直接使って視覚アルゴリズムを調整することが現実になったということです。得られたReAlnetは単に物体を認識するだけでなく、電気的脳信号、MRIスキャン、さらには認識課題での誤りパターンに至るまで、我々自身の視覚経路をよりよく反映する形で情報を整理します。改善は控えめで技術的課題も多く残りますが、本研究は内部動作が人間の脳によって形作られたAIシステムへの具体的な一歩を示しており、将来的にはより頑健で解釈可能、個人別化された技術につながる可能性があります。

引用: Lu, Z., Wang, Y. & Golomb, J.D. Achieving more human brain-like vision via human EEG representational alignment. Commun Biol 9, 463 (2026). https://doi.org/10.1038/s42003-026-09685-w

キーワード: 脳整合型AI, EEG視覚, 物体認識, 計算神経科学, 人間らしい知覚