Clear Sky Science · ja

変分推論による顔表情認識

2026-02-05 · 一覧に戻る

顔から感情を読み取る

私たちの顔は常に感情を発信していますが、その信号はめったに単純ではありません。笑顔が緊張を隠していることもあれば、「無表情」に見える顔に退屈と苛立ちが入り混じっていることもあります。本研究はPOSTER-Varという新しい人工知能（AI）システムを紹介します。これは、今日の顔表情解析ツールよりもこうした微妙で混在した感情をより正確に読み取ることを目指しており、人間とコンピュータの相互作用からメンタルヘルスのモニタリングまで幅広い応用を改善する可能性があります。

感情はオン／オフだけではない理由

既存の多くの顔表情認識システムは、感情をきちんと分かれた箱（幸福、悲しみ、怒りなど）として扱います。しかし心理学の知見では、表情は基本感情の混合であり、複数の感情が異なる強度で同時に現れることが示されています。従来のAIモデルは通常、各画像を一つの固定ラベルに押し込め、曖昧さや感情の連続的・段階的な性質を無視します。そのため、照明や姿勢、さらには人間の不一致なラベルがノイズを加える現実世界の状況では脆弱です。著者らは、顔が複数の感情を異なる強度で示唆することを認め、コンピュータは白黒の判断ではなく確率に基づいて推論すべきだと主張します。

不確実性を受け入れるモデル設計

この混沌とした現実により適応するため、研究チームは変分推論と呼ばれる現代の確率モデリング手法を基に構築しました。各感情に対して単一の固定スコアを出す代わりに、POSTER-Varは顔の特徴を「潜在空間」へ写像し、そこで各感情を通常はベル曲線のような確率分布として表現します。訓練時にはこれらの学習された分布からサンプリングを行い、各顔について取りうる複数の解釈を探索することを促します。テスト時には、安定した予測を行うためにこれらの分布の中心を用います。重要なのは、POSTER-Varが従来の変分設計で使われていた追加のデコーディング層や全結合層を取り除き、確率的表現そのものを最終的な意思決定信号として扱っている点です。この簡素化された「変分推論ベースの分類ヘッド（VICH）」は、不確実性を定量化しつつ効率性と精度を両立させます。

複数スケールで顔を捉える

表情を認識するには、口の曲線や目の形、全体の構成など、顔の異なる部分や異なる解像度で見ることが必要です。POSTER-Varは強力な先行システム（POSTER++）を拡張し、これらのマルチスケール特徴の結合方法を改善しています。標準的な画像バックボーンと、目尻や口端などのキーポイントを追跡する顔ランドマーク検出器からの情報を融合するために複数のアテンション機構を使用します。「レイヤー埋め込み」は各特徴マップに処理ピラミッド内での位置と意味レベルを示し、ネットワークがどの詳細がどこから来ているかを理解する手助けをします。非線形変換と改良されたチャネルアテンションブロックがこれらの特徴を再バランスし、表情に情報を与える特徴を強調すると同時に、背景の雑音や個人固有の特徴のような気を散らす要素を抑制します。

システムの検証

研究者らはPOSTER-VarをRAF-DB、AffectNet、FER+の三つの広く使われる実世界データセットで評価しました。これらのコレクションには、制御されていない条件で撮影された数十万の顔画像が含まれ、それぞれいくつかの基本感情のいずれかでラベル付けされています。すべてのベンチマークにおいて、POSTER-Varは現状最先端の手法に匹敵するか上回る結果を示しました。例えばRAF-DBで約93%の精度、FER+で約92%を達成し、AffectNetの7クラスおよび8クラス版でもわずかに改善が見られました。個別の構成要素を取り除くアブレーション実験では、レイヤー埋め込みと変分ヘッドの双方が性能に寄与しており、特に変分成分は難しく不均衡なデータセットで有益であることが示されました。アテンションマップの可視化は、POSTER-Varがベースラインよりも広く意味のある顔領域に注目していることを示し、学習された感情分布のプロットは、曖昧なケースで例えば「悲しい」と「中立」をよりよく分離している様子を示しました。

現実世界での意味

平たく言えば、POSTER-Varは機械に対して顔表情を信号機のように扱うのではなく、天気予報のように扱うことを教えます：主要な「晴れ」の気分がありつつも散発的な「曇り」の兆候があり得るように、予報は不確実性を認めるべきです。感情について単一の推測ではなく分布全体をモデル化することで、システムはノイズの多いラベルや微妙で混合した表情に対してより頑健になります。本研究は、このような確率的アプローチが次世代の感情対応技術の基盤となり得ることを示唆しており、仮想アシスタント、ソーシャルロボット、行動研究ツールが、人の顔が不完全にしか示さない複雑な感情により敏感に対応できるようになる可能性があります。

引用: Lv, G., Zhang, J. & Tsoi, C. Facial expression recognition via variational inference. Sci Rep 16, 7323 (2026). https://doi.org/10.1038/s41598-026-38734-x

キーワード: 顔表情認識, 感情AI, 確率的モデリング, 変分推論, コンピュータビジョン