Clear Sky Science · ja

視線の目の領域を用いたReading the Mind in the Eyesテストによるマルチモーダル大規模言語モデルの異人種間感情認識能力の評価

· 一覧に戻る

日常生活でこれが重要な理由

人の目元を見てその感情を当てられるコンピュータプログラムを想像してください――多くの人より正確に当てることさえあるかもしれません。本研究は、こうしたシステムが異なる民族的背景の人々に対して公正に働くかどうかを問います。人工知能(AI)ツールが医療、教育、日常アプリに進出するなかで、異なる集団を同等に扱うかどうかを知ることは、信頼、安全性、倫理の観点で極めて重要です。

Figure 1
Figure 1.

目元に感情を探す

研究者らはよく知られた心理学的テスト「Reading the Mind in the Eyes」に着目しました。この課題では顔の目元だけが示され、観察者はその目がどの感情や心の状態を表しているかを選ばなければなりません。テストには、白人、黒人、韓国人の写真を用いた3つのバージョンがあります。人はしばしば他の民族の顔から感情を判断するのが難しいと感じることがあり、これは「他人種効果」として知られるパターンです。本研究は、高度なAIシステムが同様の弱点を示すのか、それともこれら異なる顔のセット間で等しく感情を認識できるのかを問いかけました。

3つのAIシステムを試験にかける

チームは、画像とテキストの両方を処理できる代表的なマルチモーダル大規模言語モデル3種を評価しました。旧型のGPT-4ベースモデル、新型のGPT-4oベースモデル、そして競合するClaude 3 Opusです。各モデルは3つのテストをそれぞれ2回ずつ受け、研究者は正確さと一貫性の両方を確認できるようにしました。AIモデルは各目の画像に対して4つの選択肢を見て1つを選ぶという、人間の受験者と同じ形式で回答しました。その後、科学者らはAIのスコアを過去に同じテストを受けた多数の人間の成績と比較しました。

機械の成績はどの程度だったか

新型のGPT-4oモデルが際立っていました。白人の顔では約83%、黒人の顔では94%、韓国人の顔では86%の正答率でした。これらのスコアは人間の成績と比べておおむね上位85〜94パーセンタイルに相当し、多くの受験者より良い成績を示しています。重要なのは、3つの民族グループで成功率がおおむね似通っており、人がこの課題で示すことの多い民族的バイアスが見られなかったことを示唆している点です。旧型のGPT-4モデルはランダム推測よりは優れていたものの平均的な人間の水準に近く、Claude 3 Opusはほぼ偶然に近い成績で、主に推測しているような成績でした。

Figure 2
Figure 2.

AIが得意としたこと、苦手としたこと

単純な総合スコアを超えて、著者らはモデルがどの種類の感情をよく扱い、どれを苦手としたかを詳しく調べました。システム全体として、不安や落ち着かなさ、思慮深さといった内的な状態は高い精度で認識する傾向がありました。一方で、遊び心、親しみやすさ、いちゃつきのような対人関係の意味合いを持つ社会的に豊かな肯定的表情はより苦手でした。新型のGPT-4oはこれらの誤りを他より減らしており、各世代のAIが以前のモデルが見落としていた微妙な社会的信号を捉えるのが上手くなっている可能性を示唆しています。

人々にとっての意味

この結果は期待と重要な注意点の両方を提起します。一方で、顔から感情を多くの人よりうまく、かつ民族間で同様に読み取れるシステムは、将来的に心理学者、医師、教師らの支援として、社会的手がかりに関するより安定したセカンドオピニオンを提供する可能性があります。他方で、眼の領域だけを使うこのテスト自体には重大な科学的限界があり、実際の社会的理解は身体言語、声の調子、文脈に依存します。著者らは、これらの結果がAIに本物の共感があることや、他の状況で偏りがないことを証明するものではないと強調しています。むしろ、この研究は早期のベンチマークを提供するものであり、目元に限られた狭く制御された課題においては少なくとも1つの現代的AIが高精度かつ比較的公平に振る舞っているように見えるが、実世界の判断に影響を与えるにははるかに多くの研究が必要である、という結論です。

引用: Refoua, E., Elyoseph, Z., Piterman, D. et al. Evaluation of cross-ethnic emotion recognition capabilities in multimodal large language models using the reading the mind in the eyes test. Sci Rep 16, 9975 (2026). https://doi.org/10.1038/s41598-026-39292-y

キーワード: 感情認識, 人工知能, 社会的認知, 異人種バイアス, メンタルヘルス