Clear Sky Science · zh

基于多模态Transformer算法的大学体育课程学生参与度预测分析

2026-03-26 · 返回目录

这对学生和教师为何重要

大学体育课旨在提升体能、培养良好运动习惯并改善心情，但许多体育馆和操场仍然面临出勤率低、参与敷衍的情况。本研究展示了如何将可穿戴设备、课堂摄像和简短书面反馈的数据结合起来，自动估计学生在体育课中的真实参与度，为教师提供比传统打卡清单或期末问卷更迅速、更客观的洞见。

将体育课程变成丰富的数据流

在现代体育课程中，学生常佩戴能够记录心率、步数和运动的设备，摄像头捕捉群体活动，在线平台收集简短留言和评论。研究人员利用一个大型全国性数据集，将这些数据流汇总，覆盖1000名大学生、数千小时的课堂时间。每个十分钟的课堂片段由训练有素的专家标注为低、中或高参与度，标注依据包括学生的运动方式、身体强度以及他们对课程的表述。这些标注片段成为计算模型的训练样本，使模型从原始数据中学习如何识别参与度，而不是依赖零散印象。

Figure 1. 来自可穿戴设备、摄像头和评论的数据汇聚，以跟踪学生在体育课上的参与程度。

教模型解读身体、面部与文字

研究没有依赖单一信息源，而是构建了一个将传感器、文本和视频视为平等合作者的分层模型。对于心率和加速度等传感信号，序列处理网络学习识别诸如持续用力或反复爆发式活动的模式。对于学生的评论和简短反思，语言模型将整句浓缩为编码态度与情绪的紧凑表示。对于视频片段，另一个网络将每帧划分为小块，并学习面部表情、身体姿态和运动模式如何随时间展开。三种数据流随后被映射到共享的数值空间，使模型能够有效地比较并融合它们。

模型如何将信号与参与度关联

该方法的核心是一种使不同数据流能够相互关注的技术。首先，模型对每个流进行单独强化，学习内部结构，例如心率趋势或视频中的关键时刻。接着，它将各流连接起来，提出诸如哪些传感器时间段与书面中提到的疲劳相对应，或哪些视频片段与暗示兴奋的语言相对齐等问题。通过学习这些跨模态关联，系统构建出每名学生在十分钟窗口内的融合图景。最后，这一组合图景输入到一个简单的输出层，既给出连续的参与度得分，也给出三级分类结果。

Figure 2. 传感、视频和文本信号通过分层模块流动，将学生划分为低、中或高参与度。

系统在实践中的表现如何

当研究人员将他们的多模态模型与仅使用传感器、仅使用视频或只用两种数据的现有方法比较时，发现了明显的提升。与强大的仅传感器基线相比，新系统将预测误差减少了五分之一以上，并在参与度等级分类上达到90%以上的准确率。重要的是，它的处理速度足以在课堂中发挥作用：处理一名学生十分钟数据大约需要两十分之一秒。逐一去掉某种数据类型的测试显示，三种来源都很有价值，其中视频贡献最大，其次是文本，然后是传感器。对模型内部注意力模式的额外分析表明，它关注的是合理的线索，例如将升高的心率与积极运动以及随后的疲劳联系起来。

这对未来体育课堂可能意味着什么

作者得出结论：精心设计的多模态系统可以提供及时且相当准确的学生参与情况视图，将评估从粗略印象转向连续的、数据驱动的洞察。尽管该方法依赖摄像头和可穿戴设备，并带来隐私与公平性的议题，但它指向了这样一种未来：教师能够实时获得学生何时专注、何时兴奋或何时走神的反馈，从而在课堂上即时调整活动，而不是等到学期末的问卷。

引用: Li, J. Predictive analysis of student engagement in university physical education courses based on a multimodal transformer algorithm. Sci Rep 16, 15123 (2026). https://doi.org/10.1038/s41598-026-45928-w

关键词: 学生参与度, 体育教育, 多模态学习, Transformer模型, 可穿戴传感器