Clear Sky Science · ja

ストレスレベル予測のためのドメイン横断マルチモーダル学習：独立したEEGと顔表情データセットを統合するハイブリッド深層学習フレームワーク

2026-04-01 · 一覧に戻る

なぜストレス追跡が重要か

多くの人が日常生活の中でストレスを感じますが、それを明確で客観的に測るのは難しいです。本研究は、コンピュータが脳と顔の両方からの信号を読み取り、個人のストレスレベルを低・中・高に分類できるかを探ります。頭の内部で起きていることと顔に表れることを組み合わせることで、単純な気分チェックを超えて、職場や家庭、デジタル機器でのウェルビーイング支援につながるツールの開発を目指します。

ストレスを示す二つの窓

本研究はストレスに関連する非常に異なる二つの信号に注目します。一つはEEGとして捉えられる脳の電気活動であり、他者には見えない内面的な反応を反映します。もう一つは顔表情で、緊張や不安、落ち着きといった外向きの兆候を示します。著者らは新たな被験者からデータを収集する代わりに、DEAP（EEG記録）とFER2013（顔画像）という二つの公開データセットを再利用します。どちらのデータセットも医学的なストレススコアでラベル付けされていないため、研究チームは脳の覚醒度や顔に現れる感情の強さに基づいて三つのストレス帯域を注意深く定義します。また、ラベル付けの選択を小さく変えた場合に結果がどの程度影響を受けるかも検証します。

Figure 1. 脳の信号と顔の手がかりがどのように一つのシステムに流れ込み、人を低・中・高のストレスレベルに分類するか。

機械に信号を読ませる

これらの信号のパターンを学習させるため、研究者らは二つの独立した深層学習ブランチを構築します。EEGにはLSTMと呼ばれる、時間的変化を追跡するのに向いたネットワークを用い、脳波のリズムやバーストがストレスに関連する可能性をとらえます。顔に対しては、画像全体に注意を向けるVision Transformerと、目や口の周りの筋肉の緊張など局所的な詳細に着目する従来の畳み込みネットワークを組み合わせます。各ブランチは生の入力を、考え得るストレスレベルについて学んだ内容を要約するコンパクトな特徴セットに変換します。

脳と顔を統合する

重要な疑問は、まったく別の被験者や実験から得られた二つの視点をどのように統合するかです。著者らは三つの融合戦略を試します。Early fusion（初期融合）では、脳と顔の特徴リストを単純に連結して分類器に渡します。Late fusion（後期融合）では、各ブランチが独自に推定を出し、最終的な答えを平均化したり投票で決めたりします。Stacked fusion（積み上げ融合）では、第二段のモデルが二つの推定セットをどのように組み合わせるかを学び、どの信号をいつより信頼すべきかを見出します。訓練データとテストデータを厳密に分けることで、結果の正直さと比較可能性を保つための慎重な手順が取られています。

Figure 2. 脳と顔の別個のブランチが段階的に統合され、より正確な低・中・高のストレス推定を可能にする手順の概要。

システムができることとできないこと

単独では、顔モデルは約5件中4件の精度でストレスレベルを分類し、脳モデルは約5件中3件をやや上回る結果を示します。融合すると全般に性能が向上します。Early fusionは既に単独のどちらよりも良い結果を出しますが、Late fusionの方がさらに優れており、各ブランチを専門化させることが有益であることを示唆します。Stacked fusionは最も良い成績を示し、テスト例の9割以上でストレスレベルを正しく割り当て、精度、再現率、F1値でも高いスコアを記録します。それでも著者らは、これらのラベルが感情と覚醒に基づく代理指標に過ぎず、臨床診断ではないこと、そしてEEGと顔データが別の被験者から得られているため、方法が実生活のストレスを直接的に反映するには限界があることを強調します。

日常生活にとっての意味

簡潔に言えば、本研究は、脳活動と顔表情の両方から学習することで、たとえそれらのデータが別々に収集されたものであっても、コンピュータが人を低・中・高のストレス群により確実に分類できることを示しています。このフレームワークは、完全に同期したセンサーを要求せずにオフィス、医療、または対話型機器で上昇するストレスを監視する将来のシステム構築のための手順を提供します。こうしたツールが個人の健康に関する判断を支えるには、実際のストレス測定と一致する新しいデータやマッチングされた記録での検証が必要ですが、本研究は重要な技術的基盤を築いています。

引用: Pechetti, S., Chennu, L., Chintakunta, V. et al. Cross-domain multimodal learning for stress-level prediction: a hybrid deep learning framework integrating independent EEG and facial expression datasets. Sci Rep 16, 15303 (2026). https://doi.org/10.1038/s41598-026-41250-7

キーワード: ストレス検知, EEG信号, 顔表情, マルチモーダル学習, 深層学習