Clear Sky Science · zh
用于便携式 EEG 设备的视频主导情绪识别
为什么你的视频可能能读出你的情绪
想象一下,在你观看电影预告片时,一条轻便的头带静静地监听你的大脑,并猜测你是开心、放松、难过还是害怕。本研究探讨如何使用小型便携的脑电(EEG)设备,而不是笨重的实验室设备,使这种情景变为现实。这项工作对任何关心更智能媒体的人都有意义:从想了解受众反应的广告商,到可依据观众真实感受而非点击行为来推荐节目的流媒体平台。

从脑电读取情绪
我们的大脑会产生微弱的电信号,能通过头皮上的脑电图(EEG)被捕捉到。当我们体验不同情绪时,这些信号会发生细微变化。一个常用的研究数据集 DEAP 在记录人们观看音乐视频时同时采集了他们的 EEG,并让他们对每个视频的愉悦度、强度、控制感和喜好度进行评分。大多数以往研究在理想的实验室条件下使用大量电极和强大计算资源来追求尽可能高的准确率,但这些条件与现实生活并不匹配。本文则提出了一个更务实的问题:在低成本、便携设备和更少电极的条件下,我们是否仍能捕捉到视频在多数人中倾向唤起的主要情绪?
寻找共同的情绪叙事
一个障碍是人们描述情感的方式并不相同。两个观众可能看同一片段,一个说它“刺激”,另一个则说“就那样”。研究者通过构建逐步的标签校准系统来应对这一点,该系统寻找观众之间的模式,而不是完全信任个别评分。首先,将所有评分放到统一尺度并压缩到若干关键维度。然后,使用无监督聚类对相似的情绪反应进行分组,旨在把视频划分为情绪空间的四个广义角落:开心(愉悦且强烈)、放松(愉悦且平静)、恐惧(不愉悦且强烈)和悲伤(不愉悦且平静)。最后的细化阶段基于额外评分信息对不确定的情况进行调整,得出更能反映群体总体印象的视频主导情绪标签。
以更少硬件做更多事
另一个挑战是硬件:配备 32 个或更多电极的全套 EEG 帽既笨重又昂贵。研究团队设计了一种方法,将电极精简到仅 11 个精心选定的位置,覆盖额部、头顶、中部、两侧和后脑等与情绪调节、唤醒、听觉、视觉与注意力相关的区域。随后,他们对不同情绪状态下经典脑电频带(从慢到快节律)中信号能量的分布进行了详细分析。通过比较这些模式,他们表明某些频率与头皮位置的组合,能强烈指示观众是高度唤醒还是深度放松。这种多频带能量比方法让他们在丢弃大量冗余的同时保留最具信息量的信号。
让数据突出重要信息
即便电极减少,每秒记录的数据仍然海量。为避免淹没模型,作者将多种特征类型结合起来——例如基于小波的能量测度、不同脑区协同波动的强度,以及各频率段随时间变化的功率——构成对每次观看的丰富而有结构的描述。随后,一步以显著性为导向的选择过程根据各特征区分情绪的有用程度对其排序,仅保留紧凑的子集。使用这一精简表示,训练了三种标准的机器学习模型来识别哪一种四类主导情绪最适合给定视频。在要求系统对全新个体进行泛化的严格测试中,表现最好的模型达到约 45% 的准确率——对于带噪声的脑电数据和仅 11 个通道的四分类任务来说,这是一个稳健的结果。

这对日常科技意味着什么
对非专业读者来说,关键信息是:我们可以开始使用小型便携的脑电设备,而非完整实验室装置,来评估一群人对视频的情感反应。通过清理情绪标签、聚焦 EEG 信号中最具信息量的部分,并仅选择少数位置恰当的传感器,作者展示了可以跨观众检测视频的主导情绪基调——开心、放松、恐惧或悲伤。系统尚不完美,但它指向了基于客观脑反应而非仅依赖问卷或点击的受众情绪追踪、内容测试和情绪感知推荐的实用工具。
引用: Wen, X., Xu, W., Tian, L. et al. Video-dominant emotion recognition for portable EEG-based devices. Sci Rep 16, 7899 (2026). https://doi.org/10.1038/s41598-026-39315-8
关键词: 脑电情绪识别, 脑–机接口, 视频情感分析, 可穿戴神经科学, 情感计算