Clear Sky Science · zh

基于深度学习的视觉算法用于工程实践课中的身份与动作识别

2026-03-31 · 返回目录

观察在实践课上谁在做什么

在许多工程实验室中，学生会走动、连接导线、编写代码并查看手机。对于教师来说，很难知道谁在执行哪项任务，而对于计算机来说，这样忙碌的场景更难解读。本文介绍了一个人工智能系统，能够在真实教学实验室中可靠地识别学生身份和简单动作，即便学生背向摄像头或改变姿势。

Figure 1. 一个人工智能系统如何在繁忙的工程教室中跟踪移动的学生及其行为。

为什么常规的人脸检测不够

现代人脸识别在人员静止并朝向摄像头时效果很好，比如在阶梯教室或安检通道。但在工程实践课程中，学生会俯身桌前、转头或围绕设备走动。在这些情况下，标准人脸识别常会丢失目标，因为它依赖清晰的正面视角。侧重全身外观的行人重识别方法也面临类似问题：学生在倾斜、旋转或走动时，体型和服装的视觉表现会发生很大变化。

融合面部、身体与运动信息

作者提出了一个框架，结合来自面部和上半身图像的信息，并在课堂进行中持续更新已知信息。课前，每位学生向学校系统提供一张清晰的正面照片。课堂开始时，学生站在实验室面向摄像头登录系统。系统将他们的面部与存档照片匹配，同时为每位登录的学生记录一张身体图像。这些初始的面部和身体特征构成了后续课堂跟踪的起点。

为每位学生构建动态记忆

一旦实践课开始，系统以大约每秒十到十五帧的速度分析视频。对每一帧，它检测面部与身体并提取紧凑的数值描述。如果当前帧中的面部与档案面部匹配但身体匹配较差，系统会信任面部并将新的身体视角加入动态身体库。在其他情况下，当某个身体匹配良好且其在相邻帧间位置变化很小而面部短暂缺失时，系统将其视为快速转头并将新的面部视角加入动态面部库。随着时间推移，每位学生将由许多不同角度、尺度与光照条件下的面部与身体样本表示，这使得后续帧中的识别更为可靠。

Figure 2. 该算法如何随时间融合不断变化的面部与身体视角，以可靠地识别学生并识别关键的实验操作。

教会计算机注意简单动作

除了识别谁在教室里，教师也关心学生在做什么。研究人员加入了一个行为识别模块，关注若干关键的实验活动，如在笔记本上编程、连接导线或使用手机。一个独立工具在人体上绘制类似火柴人骨架的结构，捕捉头部、躯干与四肢的排列。团队随后训练了一个轻量级图像分类器来区分基于骨架的姿势。因为该模型分析的是简化的轮廓而非完整图像，它能够处理超过每秒二十帧的视频，足以跟上典型课堂摄像头的速度。

在真实实验室中测试系统

该框架在一个伺服电机控制课程中进行了评估，六名学生从事布线、将电机复位到原点以及编写运动程序等任务。作者比较了三种方案：仅人脸识别、仅基于身体的重识别，以及他们的组合动态方法。在登录期间和整个实践环节中，组合方法明显优于另外两种，在判断每帧视频中出现的是哪位学生时，取得了更高的精确度和更好的整体评分。就动作模块而言，识别准确率从编程的大约三分之二到使用手机的超过五分之四不等，尽管训练集相对较小。

这对未来课堂意味着什么

对普通读者来说，主要结论是：研究表明通过融合不同的视觉线索并随时间更新它们，计算机可以在繁忙的教学实验室中更好地分辨谁是谁，同时识别若干简单行为。该系统在强侧脸视角和学生动作的全部多样性方面仍存在挑战，但作者提出了使用三维人脸模型和更丰富训练数据的改进路径。他们还强调了隐私保护的必要性，例如仅存储最必要的特征并对原始图像进行加密。综合这些想法，未来的实验室环境有望让计算机在不干扰实践学习的前提下，静默地支持教师监控参与度和活动情况。

引用: Ma, J., Wang, R. & Lan, W. Deep learning-based visual algorithms for identity and action recognition in engineering practical courses. Sci Rep 16, 15524 (2026). https://doi.org/10.1038/s41598-026-45964-6

关键词: 学生监控, 人脸识别, 动作识别, 工程教育, 计算机视觉