Clear Sky Science · ja
運転タスクにおける人間とアルゴリズムの視覚的注意
日常の運転でなぜ重要か
車がより自動化される中で、重要な問いは残ります:自動運転システムは本当に人間と同じように道路を「見て」いるのか?本研究は、人間の運転者と人工知能が交通中にどのように視覚的注意を向けるかを比較し、人間らしい注意の一部を慎重に組み込むことで、巨大で電力を大量に消費するAIモデルに頼らずに運転アルゴリズムをより賢く、より安全にできることを示します。

道路上で人の目がどう動くか
研究者たちはまず、初心者と経験者の運転者を模擬運転環境に置き、危険の発見、曲がりや車線変更の安全判断、場違いな物体の検出という三つの一般的な安全タスクを行っている間の視線を追跡しました。運転者の注意は信頼できる三段階のリズムに従うことが分かりました。場面が現れた直後のスキャニング段階では、視線は主に物の位置に導かれて視界全体を幅広く走査します。検査段階では、注意が最も情報量の多い単一領域――横断する歩行者や進路をふさぐ車など――に固定され、その詳細と意味を精査します。最後に再評価段階では、運転者はその主要な対象を他の物と比較し、決定を確かめるために視線を行き来させます。
機械の見方と人の見方の違い
次にチームは運転シーン向けの注意ベース深層学習モデルを構築し、その内部の「注意マップ」を人の視線データと比較しました。一般的な物体検出でモデルを訓練すると注意はやや人間に近づきましたが、特定の運転タスクに微調整すると、とくに意味重視の検査段階で人のパターンから離れていくことが多くありました。全体として、人間とアルゴリズムの注意の相関は控えめであり、現在の運転AIが人がどこを見、なぜ見ているかという組織原理を見出すのに苦労していることを示唆しています。

車に人間の注目を取り入れる教え方
どの部分の人間の注意が機械に役立つかを確かめるために、著者らは人間の視線の異なる段階を運転モデルに取り込みました。数百万枚の画像について直接視線追跡データを収集するのは現実的でないため、彼らはわずか五人の運転者からの小さなサンプルで別の「人間的注意生成器」を訓練しました。この生成器は新しい場面に対して人間らしい注意のヒートマップを予測することを学びました。メインの運転モデルが空間的で初期のスキャニング段階のみを使うと、異常検出や軌道計画の性能が悪化したり、安全そうに見えても衝突しやすい経路を生み出したりすることがありました。対照的に、人が最も意味のある単一領域に集中する検査段階を使うと、全長の視線を用いた従来手法を上回る精度が得られ、計画タスクでの衝突率も低下しました。
大規模ビジョン・ランゲージモデルがまだ欠くもの
研究者たちはまた、運転に関する質問に答えたり3D街路シーンの詳細なキャプションを生成したりする大規模なビジョン–ランゲージモデルもテストしました。高レベルの推論を重視する質問応答タスクでは、人間の注意を加えてもほとんど助けにならず、時に性能が落ちることがあり、こうしたモデルは既に多くの抽象的知識を捉えていることを示唆します。しかし、正確な語を正確な物体に結びつけることを要求する難易度の高いキャプションタスクでは、検査段階の人間の注意が依然として大きな効果をもたらしました。これは、大規模モデルが一般的な推論は得意でも、雑多な視覚場面で言葉を厳密に特定の箇所に結びつける必要があるときに躓くことがあり、そこを人間の視線が補えることを示しています。
より安全な自動車のために何を意味するか
平たく言えば、本研究は今日の運転AIと人を真に分けるのは単に「どこを見るか」ではなく、場面で瞬時に「何が重要か」を判断するやり方だと主張します。その意味的な注意の短い爆発――状況を安全か危険かにする一つの領域を精査する瞬間――は、多くのアルゴリズムが欠いているまさにその信号でした。少量の視線追跡データからこの段階を模倣することを学ぶことで、運転システムはより大きく高価なAIモデルだけに依存せずに道路シーンの人間らしい理解を得ることができます。この「意味的ショートカット」は、現実世界の交通の混沌とした予測不能な状況で将来の自動車をより信頼できるものにする効率的な手段になり得ます。
引用: Zheng, C., Li, P., Jin, B. et al. Human and algorithmic visual attention in driving tasks. npj Artif. Intell. 2, 23 (2026). https://doi.org/10.1038/s44387-026-00079-1
キーワード: 自動運転, 視覚的注意, 人間の視線追跡, ビジョン・ランゲージモデル, 交通安全