Clear Sky Science · zh

集体与增强智能在情绪识别测试中优于人工智能

2026-03-24 · 返回目录

这对日常生活为何重要

谁更擅长仅凭一瞥眼睛就读出情绪：人类还是机器？随着人工智能系统进入学校、诊所和工作场所，许多工具声称可以从面部判断情绪和心理状态。本研究显示，尽管强大的 AI 模型在实验室风格的情绪测试中能击败大多数个体，但独立工作的群体人类仍然占优，而将人类与机器的判断结合起来则能得到最好的结果。

Figure 1. 人类与 AI 共同判断眼部情绪的准确率高于任何一方单独判断。

情绪阅读测试如何进行

研究者关注两种广泛使用的实验任务，这些任务要求参与者仅凭眼部区域的照片推断感受和想法。在每个测试中，观察者看到一张图片，必须从四个简短词语中选择最能匹配该人心理状态的一个。一个测试使用主要来自单一族群的黑白照片，而较新的版本包含更多样化背景人物的彩色图片并使用更简单的词汇。尽管这些测试并不完美地反映现实世界的情绪生活，几十年的研究仍将测试得分与社交技能和临床结果联系起来。

领先的 AI 与个体人类相比如何

研究团队评估了一个名为 GPT-5 mini 的强大多模态语言模型，该模型能分析图像和文本。他们对每个测试条目运行模型 100 次，未提供任何练习示例，以捕捉其基线表现。与超过 27,000 名人类参与者的数据相比，GPT-5 mini 在两项测试中的正确率约为 83%，明显高于人类平均的 71% 和 63%。对整个人类能力范围的详细分析显示，AI 超过了几乎所有低分和中等得分的人。在较旧的测试中，极少数最优秀的人类评分者略微匹敌或略胜该模型，而在较新的多种族测试中，AI 即便在顶端也保持领先。

为何人群优于机器群体

接下来，研究者考察了将许多独立答案汇总时会发生什么。他们通过反复抽样一组人或一组 AI 运行结果来模拟人群，并让最常见的答案胜出，这是一种称为多数投票的简单规则。人类群体随规模增长显著改进；当 100 人的答案合并时，一项测试的准确率接近完美。相比之下，AI 群体通过增加更多运行几乎没有收益。对同一模型的不同调用往往重复相同的错误，因此群体无法自我纠正。实际上，这就像多次问同一个专家同一个问题，而不是借助多样化的生活经验。

人类与 AI 结合效果最佳

最后一步是混合人类和 AI 的投票。研究者构建了混合群体，其中大多数成员是人类，较小比例为 AI 运行，每一方独立提供答案然后合并。这些增强型群体始终优于纯人类或纯 AI 群体。在较新、更具包容性的测试中，单独的人类或 AI 都无法超过约 95% 的准确率，但混合群体达到了大约 98%，且所需的人群规模更小。这一模式表明人类和机器倾向于犯不同类型的错误，因此它们的优势能够自然互补。

Figure 2. 人类与 AI 的错误类型不同，因此将它们的情绪判断结合起来能产生更准确的最终决定。

这对使用情绪 AI 有何意义

研究得出结论：将 AI 与“平均人类”直接比较可能具有误导性，因为这忽略了集体人类判断的力量。像 GPT-5 mini 这样的强大模型在狭窄的实验测试中可能胜过大多数个体，但仍可能不及多样化人群共同达到的水平，尤其是在机器反复犯相同错误时。对于从面部解读情绪等任务，最可靠的做法不是让 AI 取代人类，而是将人类的洞察与机器的一致性配对，在精心设计、保持人类参与的系统中协同工作。

引用: Akben, M., Gude, V. & Ajjan, H. Collective and augmented intelligence outperform artificial intelligence on emotion recognition tests. Sci Rep 16, 14823 (2026). https://doi.org/10.1038/s41598-026-45331-5

关键词: 情绪识别, 集体智能, 人机协作, 多模态人工智能, 社会认知