Clear Sky Science · ja
視覚の外挿モデリングのための合成画像を用いた7T fMRIデータセット
視覚とAIの理解にとってなぜ重要か
私たちの目は毎日、森林や顔から街頭標識や画面のノイズまで、多種多様な画像を取り込んでいます。しかし脳科学や人工知能の多くの研究は、この視覚世界の狭い一部、つまり自然場面の写真に依拠して構築されています。本論文は、その居心地の良い領域から意図的に踏み出す新しい種類の脳データセットを提示します。慎重に設計された合成画像を用いることで、人間の視覚に関する理論とそれに着想を得たAIモデルの双方をストレステストします。
新しい視覚テストベンチの構築
著者らは、被験者が数万枚の写真を閲覧している間に7テスラMRIで超高解像度の脳活動を記録した影響力の大きいNatural Scenes Dataset(NSD)を拡張します。元のデータセットは既に視覚皮質が画像にどう反応するかを最も正確にモデル化する研究を支えてきました。しかし、そこに含まれる画像が比較的“普通”の写真に限られているため、NSDでうまく動作するモデルが視覚の一般原理を捉えているのか、それとも特定の画像群に特化しているだけなのかを判断するのは難しいです。これに対処するため、チームは同じ8人のボランティアを再び走査し、今回はあえて写真の世界から外れた284枚の“合成”画像を提示しました。

奇妙な画像でも安定した脳応答
合成画像は8つのファミリーにまたがります:さまざまな種類の視覚ノイズ、単純な自然場面とそれを変形したバージョン(上下逆や線画など)、コントラストを落としたり位相を乱した場面、異なる位置に配置した単語、微細パターンに対する感度を探る渦巻きの格子、そして鮮やかな色のノイズパッチ。被験者は小さな点の点滅に集中するか、簡単な画像比較課題を行う一方で、研究者は1.6秒ごとに脳活動を測定しました。これらの奇妙な刺激でも強く信頼できる信号が得られ、とくにエッジ、コントラスト、色などの基本的特徴に反応する初期視覚野で顕著でした。皮質全体にわたる活動パターンは、中央に配置された単語に最も反応する語選択領域や、環境の画像に最も反応する場面選択領域など、専門化した領域のよく知られた好みとよく一致しました。
データが本当に「分布外」であることの立証
この新しいデータセットがモデルに挑戦するためには、脳応答が自然写真で誘起されるものと本質的に異なる必要があります。著者らは、元のNSDと合成セッションの活動パターンを圧縮して、画像間の応答類似性を反映する2次元マップにします。その空間では、スキャンセッションの差を考慮しても合成画像への応答が自然写真への応答とは別個にクラスタリングします。さらに、合成画像は視覚的タイプごとに自然にまとまり—ノイズはノイズ、格子は格子といった具合—これは脳が刺激の表面的な見かけだけでなく、その基盤にある構造に従ってこれらを組織化していることを示しています。

脳データとAIモデルにより厳しい試験を課す
この「分布外」データセットを用いて、チームは標準的なエンコーディングモデルを訓練します。これは深層ニューラルネットワークから抽出した画像特徴から脳応答を予測する数学的手法です。自然写真のみで訓練されたモデルは類似の写真での検証では良好に動作しますが、合成画像の応答を予測するときには精度が著しく低下します。その低下はデータのノイズによるものではなく—合成応答は実際には非常にクリーンです—モデルの実際の失敗に起因します。重要なのは、これらの厳しい条件下で異なるニューラルネットワークアーキテクチャを比較すると、分布内のテストではほとんど見えない対比が明らかになることです。たとえば、近年のビジョントランスフォーマーや自己教師あり学習ネットワークは、合成画像に直面した際に古典的な畳み込みネットワークより良好な成績を示し、モデルの訓練方法が堅牢性を強く形作ることを示唆しています。
モデルはどれだけ馴染みのない画像に対応できるか?
著者らはさらに踏み込み、訓練データからの「距離」を二値ラベルではなく連続体として扱います。各画像の脳応答が自然場面の応答群からどれだけ離れているかを測定します。この空間で合成画像が遠ければ遠いほど、モデルの性能は低下し、脳活動だけから被験者がどの画像を見たかを特定する精度も下がります。また、通常の写真の世界内でも巧妙に選ばれたテストセットが「やや分布外」として振る舞うことを示します:モデルは訓練セットと同じクラスタから抽出された画像で最も良く、距離のある自然場面では成績が落ち、合成刺激では最も悪くなる。この段階的な図式は、新しいデータセットを現在のモデルが見落としている視覚構造の種類を詳しく調べるための道具に変えます。
今後の脳科学とAI研究にとっての意義
非専門家にとっての重要なメッセージは、馴染みのある画像で高い性能を示すことが、脳に着想を得たAIモデルが私たちの見方を本当に捉えていることを保証しない、という点です。NSD‑syntheticを元のNSDと併せて公開することで、著者らは視覚モデルのための公開された「クラッシュテストコース」を提供します:画像がより抽象的、より色彩的、あるいはより非自然的になった時にモデルがどこで破綻するかを確認する手段です。データセットが公開され、既存の広く使用されるリソースと緊密に統合されているため、人間の視覚理論やそれを模倣しようとする人工ネットワークを検証・改良するための標準的なベンチマークになる可能性が高いでしょう。
引用: Gifford, A.T., Cichy, R.M., Naselaris, T. et al. A 7T fMRI dataset of synthetic images for out-of-distribution modeling of vision. Nat Commun 17, 1589 (2026). https://doi.org/10.1038/s41467-026-69345-9
キーワード: 視覚皮質, fMRIデータセット, 合成画像, 分布外(out-of-distribution), 深層ニューラルネットワーク