Clear Sky Science · ja
NeuroAction: 自律走行車のための強化学習に対する神経進化的アプローチ
より賢い運転スタイルが重要な理由
多くの人は自動運転車を冷静で完全に合理的な運転手として想像します。しかし現在のシステムは、衝突しないことや迅速に目的地に到着することなど、単一の目的の混合を追いかける傾向があり、その混合はエンジニアによって固定されています。本稿で述べるNeuroActionは、自律車に人間に近い柔軟性を持たせることを目指しています。つまり、車を毎回再学習させることなく、慎重な「チャイルドオンボード」的挙動から高速道路での迅速なクルージングまで、複数の安全な運転スタイルから選べる能力です。
画一的な手法から多数の安全な選択へ
現在の深層強化学習を用いた運転システムは試行錯誤で学習します。道路を観察し、操舵や加減速といった行動をとり、速度、安全性、車線位置といった複数の目的を混ぜ合わせた単一の数値報酬を得ます。システムを調整するためには、その単一の報酬を非常に注意深く設計する必要があります。速度に重みを置きすぎれば攻撃的な運転になり、安全性を強調しすぎれば極端に遅くなります。後から好みを変えるには通常、大きなニューラルネットワークを最初から再学習させる必要があり、それは時間がかかり、メモリを多く消費し、技術的な設定に敏感です。
運転を単純な目標に分解する
NeuroActionは、単一の目的の代わりに運転タスクをいくつかの明確な目的に分割することでこれに対処します。本研究では、仮想のドライバーは安全な範囲内での走行速度、通常より右側の(一般に安全とされる)車線にどれだけ忠実に留まるか、衝突回避の三点で独立に評価されます。これらを単一のスコアに統合するのではなく、別々の尺度として扱います。裏側では、センサー入力を操舵や速度の決定に変換する各ポリシー(ニューラルネットワーク)が三つの軸すべてで同時に評価されます。

進化によりより良いドライバーを探索する
標準的な逆伝播による重み調整の代わりに、NeuroActionは生物進化から借用した考え方を使います。さまざまな運転ポリシーの集団を作成し、シミュレートされた高速道路環境で試験します。速度、車線維持、そして安全性の間で良好なトレードオフを実現するポリシーは保持されて組み換えられ、劣るものは廃棄されます。多くの世代を経るうちに、この進化的プロセスは強い解のフロンティア――パレート前線として知られる――全体を発見します。ここではある目標を改善することが他の少なくとも一つを犠牲にすることなしには不可能です。
進化ベース学習と勾配ベース学習の比較
研究者たちはNeuroActionを広く使われる2D高速道路シミュレータに適用し、標準的なニューラルネットワークベースの運転エージェントを用いました。次に複数の既存の多目的進化的アルゴリズムでエージェントのパラメータを最適化し、望ましいトレードオフの範囲をどれだけカバーできるかを比較しました。性能指標として重要なのは発見されたフロンティアの“ハイパーボリューム”で、これは解の品質と多様性の両方を捉えます。アルゴリズムの一つであるNSGA-IIは全体的なカバレッジで最良の結果を得ており、近縁のNSGA-IIIは反復実行間で特に安定した結果を示しました。

異なる運転スタイルの実際の様子
パレート前線上の個々のポリシーを調べることで、各点が識別可能な異なる運転スタイルに対応していることを著者らは示しています。あるポリシーはほとんどあらゆる状況で右側車線に固執し、速度を犠牲にし、最終的には非常に遅い前車に衝突してしまう――車線嗜好を過度に重視した過度に慎重な戦略です。別のポリシーは最初に車線変更を行うがすぐに右側の明確な車線に戻り、高速を維持しつつも衝突を避けます。一般に、この手法は保守的な車線維持型ドライバーから、より積極的だが依然として安全なクルーザーまでの戦略スペクトルを生み出し、すべて再学習なしで同時に利用可能にします。
将来の自動運転車にとっての意味
非専門家にとっての中心的メッセージは、NeuroActionが自動運転車の訓練を一つの固定行動を得る作業から、多数の良好な選択肢を探索する作業へと変えるということです。これにより状況に応じた運転ポリシーを選べるようになります――子どもを乗せるときは遅くて超安全に、急いでいるときは速く、という具合に――しかも安全性の制約は守られます。現在の実験はシミュレーション内で簡略化した目的を使っているものの、この枠組みはより適応的で好みを考慮した自律走行車へと向かう道を示しており、個別化された信頼できる運転スタイルを堅固な数学的基盤の上に提供する可能性があります。
引用: Aboyeji, E., Ajani, O.S., Fenyom, I. et al. NeuroAction: a neuroevolutionary approach to reinforcement learning for autonomous vehicles. Sci Rep 16, 7403 (2026). https://doi.org/10.1038/s41598-026-38269-1
キーワード: 自動運転, 強化学習, 進化的アルゴリズム, 多目的最適化, 自動運転車