Clear Sky Science · ja
感情認識テストでは集団的・拡張された知性が人工知能を上回る
日常生活でなぜ重要か
誰かの目もとを一瞥して感情を読み取るのは、人間と機械のどちらが得意だろうか。人工知能システムが学校、診療所、職場に導入されるにつれ、顔から気分や心理状態を推定するツールが増えている。本研究は、強力なAIモデルが実験室風の感情テストで多くの個人を上回る一方で、独立して答える人々の集団がなお優れており、人間と機械の判断を組み合わせたときに最良の結果が得られることを示している。

感情判定テストの仕組み
研究者たちは、目の領域の写真だけから感情や考えを推測するという広く使われる2つの実験タスクに注目した。各テストでは、閲覧者は画像を見て、その人物の心的状態に最も合う4つの短い語のうち1つを選ぶ。1つのテストは主に単一の民族グループから採られた白黒写真を使い、より新しい版は多様な背景の人物のカラー画像を含み、語彙も簡素化されている。これらのテストの得点は完全に現実の感情生活を反映するわけではないが、数十年の研究で社会的スキルや臨床的結果と関連することが示されている。
有力なAIは個々の人間と比べてどうか
チームは画像とテキストを解析できる強力なマルチモーダル言語モデル、GPT-5 miniを評価した。練習例を与えずに各問題でモデルを100回実行し、基礎的なパフォーマンスを把握した。27,000人を超える参加者のデータと比較すると、GPT-5 miniは両テストで約83%の正答率を示し、平均的な人間の71%および63%を明らかに上回った。人間の能力全域にわたる詳しい分析では、AIは低〜中位の得点者のほとんどを上回っていた。しかし古いテストでは、最高得点の人間はモデルとほぼ互角か僅かに上回ることがあり、新しい多民族版ではAIが上位でもリードを保った。
なぜ人の群衆は機械の群衆を上回るのか
次に、多数の独立した回答をまとめたときに何が起きるかを調べた。研究者らは人の集団やAIの複数実行を繰り返し抽出して多数決(複数回答のうち最も多いものを採る単純なルール)で決めるシミュレーションを行った。人の群衆は人数が増えるほど精度が大きく向上し、100人分の回答を合わせると一方のテストではほぼ完璧に近づいたのに対し、AIの群衆は繰り返し実行を増やしてもほとんど改善しなかった。同じモデルへの複数回の呼び出しは同じ誤りを繰り返す傾向があり、集団として誤りを是正できなかった。実質的にこれは、さまざまな人生経験に基づく複数の意見を集めるのではなく、同じ専門家に同じ質問を何度も繰り返すようなものだった。
人とAIを組み合わせると最良となる
最後に人間とAIの票を混合した。研究者らは多くを人が占め、少数をAIの実行が占めるハイブリッド群衆を構築し、それぞれが独立に回答を出してから集計した。こうした拡張群は人間のみ、AIのみのいずれの群衆よりも一貫して良い成績を示した。より新しく包摂的なテストでは、人間のみでもAIのみでも約95%を超えられなかったが、混合群はおよそ98%に達し、より小さな群衆サイズで達成した。このパターンは、人と機械が異なる種類の誤りを犯す傾向があり、それゆえに両者の強みが自然に補完し合うことを示唆している。

感情AIを使う際の意味
研究は、AIを「平均的な人間」と比較するのは誤解を招きやすいと結論づけている。なぜならそれは集合的な人間判断の力を無視するからだ。GPT-5 miniのような強力なモデルは狭い実験テストで多くの個人を上回るかもしれないが、多様な人々の協働が達成できるものには及ばないことがあり、とくに機械が同じ誤りを繰り返す場合はそうだ。顔から感情を読み取るような作業で最も信頼できるアプローチは、AIに人を置き換えさせることではなく、人間の洞察と機械の一貫性を組み合わせ、適切に人間を関与させ続ける設計をしたシステムを採ることである。
引用: Akben, M., Gude, V. & Ajjan, H. Collective and augmented intelligence outperform artificial intelligence on emotion recognition tests. Sci Rep 16, 14823 (2026). https://doi.org/10.1038/s41598-026-45331-5
キーワード: 感情認識, 集合知, 人間とAIの協働, マルチモーダルAI, 社会的認知