Clear Sky Science · zh

一种具有注意力机制的多模态时空卷积网络用于运动员焦虑行为识别

· 返回目录

为什么运动员的焦虑很重要

任何在关键考试题上失常或在比赛中错失简单投篮的人都知道,紧张如何破坏表现。对竞技运动员来说,这个问题被放大:焦虑可能让他们失去奖牌、奖学金乃至职业生涯。然而,追踪运动员紧张程度的大多数方法仍依赖事后的问卷或教练的直觉。本研究提出了一种客观的实时系统,观察运动员的身体和面部、监听生理信号,并在比赛过程中自动评估他们的焦虑程度。

Figure 1
Figure 1.

看见隐形的紧张信号

研究者从一个简单的想法出发:焦虑会在多个方面同时表现出来。运动员感到担忧时,心率节律会改变、手心会出汗、姿态会僵硬,细微的面部动作也会泄露紧张。研究团队不只关注其中某一线索,而是将多个线索同时结合。他们从可穿戴传感器收集心率和皮电数据,采集面部和全身动作的高清视频,并在真实的大学比赛前后让运动员填写标准化的心理量表。总计来自四个项目的68名运动员贡献了两千多段短视频片段,每段基于一份广为采用的焦虑问卷被标注为“焦虑”或“冷静”。

教数字教练读懂比赛

为了将这条丰富的信号流转化为焦虑评分,作者设计了一个擅长处理随时间展开模式的深度学习“教练”。他们的模型使用时空卷积网络——本质上是一组不仅在空间(像素、身体关键点、传感器通道)上滑动也在时间上滑动的滤波器。这使系统能够注意到在30秒比赛片段中既有快速的紧张爆发,也有逐步积累的压力。关键在于,网络为每种数据类型——生理、面部表情和动作——各自构建处理路径,然后再将它们合并,从而让某一通道的优势能够弥补另一个通道的弱点,例如面部部分被遮挡或传感器出现短时噪声。

让模型聚焦重要之处

因为并非每个时刻或信号都同样有信息量,研究者加入了“注意力”机制。该模块学习为那些最能区分焦虑与冷静的帧和信号分配更高权重。例如,皮电峰值与短暂的下颌紧张和下肢不安同时出现,可能比一段平稳呼吸与中性姿态获得更高的关注度。注意力模块还会动态学习各数据流的可信度,在生理信号清晰但视频嘈杂的情况下调整侧重。通过这种自适应的聚焦,系统对真实场景的鲁棒性更强,也更善于捕捉细微、早期的紧张信号。

Figure 2
Figure 2.

它的准确性和实用性如何?

与包括传统机器学习算法、常规模型视频网络和Transformer风格深度模型在内的一系列现有方法相比,该新系统表现最佳。它约95%的时间正确分类焦虑水平,并取得了高水平的精确率与召回率平衡。作者系统地测试了不同的时间窗口长度,结果显示约30秒的数据在提供足够上下文以识别一次焦虑事件和将延迟控制在可用于实时反馈的范围之间,达到了最佳折中。即便缺少某种类型的数据——例如仅有可穿戴设备在工作——系统仍能保持较好性能,表明它能应对不完美的现场条件。

这对运动员和教练意味着什么

简单来说,研究表明一台计算机可以几乎在焦虑发生时即时读取运动员的紧张程度,利用一系列身体信号和行为,并比早期工具更可靠。教练和运动心理学家可以不再仅依赖赛后运动员自述,而是获取训练和比赛中持续的、客观的心理负荷估计。这可能促使在焦虑恶化为全面表现崩溃之前,及时采取呼吸练习、调整上场阵容或安排休息。虽然该系统仍依赖多种传感器和强大硬件,并需在部署时采取严格的隐私保护,但它指向了一个将体育心理管理像速度或心率那样可测量、数据驱动的未来。

引用: Yang, F., Gong, F. A multimodal spatiotemporal convolutional network with attention mechanism for athlete anxiety behavior recognition. Sci Rep 16, 5237 (2026). https://doi.org/10.1038/s41598-026-36023-1

关键词: 运动员焦虑, 运动心理学, 可穿戴传感器, 多模态深度学习, 实时情绪监测