Clear Sky Science · ja
FERMam: 顔表情認識のための軽量デュアルソース・マルチスケール融合フレームワーク
コンピュータに顔を「読む」力を教えることが重要な理由
私たちのスマートフォン、車、家庭用デバイスは音声理解が向上していますが、私たちの感情を読み取ることにはまだ苦労しています。顔表情認識は、写真や映像の顔から人の感情を機械が「読む」ことを可能にしようとする技術です。これにより、オンライン授業がより応答的になったり、ドライバー監視システムが安全になったり、ソーシャルロボットとのやり取りが自然になったりします。課題は、一般的な端末(スマートフォン、タブレット、サービスロボットなど)で、データセンターほどの計算資源を持たない環境でこれを正確かつ高速に実行することです。本稿は、現在の多くのシステムよりはるかに少ない計算資源で表情を安定的に読み取るよう設計された新しい手法、FERMamを紹介します。
顔を二つの有益な視点から見る
既存の多くのシステムは、顔を二つの方法のいずれかで捉えます。畳み込みニューラルネットワーク(CNN)はしわや眉の形など局所的な細部を捉えるのが得意ですが、顔の遠く離れた部分同士の関連を見るのは苦手です。一方、トランスフォーマーベースのモデルは長距離の関係性をうまく捉えますが、重く遅いため小型デバイスでの運用が難しいことが多いです。FERMamは「デュアルソース」設計で両者の強みを組み合わせます。片方のブランチは効率の良い強力な画像エンコーダで顔の全体的な外観を捉え、もう一方のブランチは目や口などの重要領域の周りの顔の主要ランドマークを追跡します。これらのランドマークは、照明、肌色、背景が変わっても比較的安定している顔の幾何学的情報を強調します。外観と幾何学を融合することで、FERMamは感情が実際に現れる微妙な領域に集中できます。

小さな詳細と大局の両方を捉える
基本的な特徴が抽出された後、FERMamはそれらをConv-SSMと呼ばれる特殊なモジュールに通します。このモジュールの一方の経路は従来の畳み込みネットワークのように振る舞い、目や口まわりのエッジやテクスチャなどの細かなディテールを研ぎ澄ます役割を果たします。他方の経路は状態空間モデル(SSM)と呼ばれる新しいモデル群を利用し、特にMambaという変種を用います。画像の全ての部分を互いに比較する代わりに、Mambaは顔の上を複数方向に「走査」して、特徴が場所ごとにどのように変化するかの記憶を構築します。これにより、眉の上がり具合と口の締まりが一緒に怒りを示すといった長距離の関係を捉えつつ、計算量を抑えることができます。これら二つの経路の出力は巧みにシャッフルされ再結合され、局所情報と全体情報が相互作用できるようになります。
異なるスケール間で情報を融合する
感情は小さな領域での微細な変化として現れることもあれば、顔全体にわたる大きな変化として現れることもあります。これに対処するため、FERMamはピラミッド融合構造を採用します。粗いものから細かいものまで異なる解像度で複数の特徴マップを作成し、各レベルをAdaptive State-space Feature Refinementモジュールで処理します。各スケールでこのモジュールは軽量な畳み込みを通じて重要な局所パターンを強化し、その後、簡素化された状態空間走査によって離れた領域を結び付けます。組み込みのゲーティング機構により、目や口など表情情報が豊かな領域からの信号を強調し、背景や個人固有の無関係な詳細からの干渉を抑えることができます。精練後、すべてのスケールからの情報は再び統合され、豊かでコンパクトな要約が形成され、最終的に小さな分類器に渡されて示されている感情を判定します。

強力なモデルに匹敵する性能をずっと少ない計算で
著者らはFERMamをRAF-DB、AffectNet、FERPlusという三つの主要な顔表情ベンチマークで評価しました。これらのデータセットは、照明、年齢、姿勢などが多様な実世界の条件から収集された何万〜何十万もの顔を含みます。これらのデータ上でFERMamは、重いトランスフォーマーアーキテクチャに依存する多くの最先端手法に匹敵するかそれを上回る精度を達成しました。ある広く使われるデータセットでは、トランスフォーマー系の最良公開手法にほぼ匹敵する性能を示しながら、パラメータ数は約3分の1〜半分、演算量もはるかに少なくなっています。実用面では、FERMamはより高速に動作し、バッチモードで処理できる画像数が大幅に増え、認識品質を高く保ったまま運用できることを意味します。アブレーション研究(設計の一部を除去して行う対照実験)では、ランドマークブランチやピラミッド融合など各構成要素がこの性能と効率のバランスに有意義な役割を果たしていることが示されました。
日常技術への意味
簡潔に言えば、本研究は、賢くかつ資源を節約する感情読み取りシステムを構築することが可能であることを示しています。顔の見た目と形状という二つの視点を組み合わせ、空間とスケールに沿った情報の流れを慎重に構成することで、FERMamはスーパーコンピュータを必要とせずに高い認識性能を達成します。これにより、スマートフォン、家庭用ロボット、ドライバー支援カメラなど、人間の感情に即時に敏感に反応する必要がある機器への応用が期待できます。今後は強い遮蔽や非常に低解像度の画像など、より極端な条件に対処する研究が必要ですが、FERMamは実用的で効率的、かつより人間に配慮したコンピューティングへの道を示しています。
引用: Gao, C., Ji, X., Zhang, Q. et al. FERMam: a lightweight dual-source and multi-scale fusion framework for facial expression recognition. Sci Rep 16, 13826 (2026). https://doi.org/10.1038/s41598-026-44396-6
キーワード: 顔表情認識, 感情に配慮したAI, 軽量ディープラーニング, 状態空間モデル, 人間とコンピュータの相互作用