Clear Sky Science · zh
以人为本设计的轻量级可穿戴 IMU 人体姿态估计
更快的身体追踪为何重要
从物理治疗诊所到虚拟现实头显,许多新技术都依赖于对人体实时动作的理解。如今这通常需要摄像头、标记或笨重的计算设备,难以全天佩戴。本研究探讨如何将类似智能手机和智能手表中使用的小型运动传感器与巧妙的算法结合,几乎瞬时估计全身姿态,并且耗电极低。目标很简单:让动作追踪在精确度上足以满足严肃应用,同时在轻量和效率上足以无缝融入日常可穿戴设备。

小传感器,大动作
工作核心是惯性测量单元(IMU)——火柴盒大小的设备,用于测量加速度和角速度。放置在若干关键身体部位时,IMU 能在摄像头无法观测的场景中感知我们的动作,例如在人群中或夜间户外。挑战在于将这些原始传感器读数转化为详细的三维人体姿态是一个复杂的难题:设备只有少量信号,但必须推断出许多关节的位置,适用于不同的人和各种动作。以往方法使用大型神经网络,如深度循环网络和 Transformer,尽管精确,但代价高昂——需要大量内存、能量和时间,不适合小型可穿戴设备。
教小模型像大模型那样思考
作者提出了受师生学习启发的两步策略。在实验室训练阶段,他们使用一个强大的 Transformer 模型作为“教师”,对传感器数据在时间和身体位置维度上进行深度分析。与此同时,他们设计了一个更小的“学生”模型,基于一种称为 involution 的运算构建,该运算能够灵活适应数据中的局部模式,同时使用的参数远少于标准卷积。通过知识蒸馏过程,学生不仅仅学习匹配最终的姿态输出;它还被引导去模仿教师的内部特征模式。这样一来,学生在部署后无需教师的规模和复杂性,也能逐步掌握从传感器读取运动的高级技巧。

将训练网络变成微小的运行引擎
为使学生模型真正适合可穿戴设备,研究者进一步采用了一种称为结构重参数化的过程。在训练期间,学生模块包含多个分支、归一化步骤和自适应核,以最大化学习灵活性。在部署前,所有这些组成部分在数学上被合并为单一的精简计算,表现为两个简单的一维卷积。这个折叠过程保留了模型的行为,但消除了额外的层和操作。由于标准卷积在现代硬件上高度优化,此转化大幅减少了处理每帧所需的时间和能量,同时不牺牲网络所学到的能力。
在实践中效果如何?
团队在两个公开动作数据集 DIP-IMU 和 IMUPoser 上评估了他们的方法,这些数据集包含数百万帧的日常和运动活动,同时用 IMU 和高精度动作捕捉系统同步采集。他们的轻量模型在平均关节误差上与现有最佳方法相当或接近——在 DIP-IMU 上为 81 毫米,在 IMUPoser 上为 94 毫米,与最强基线相比约相差 1%。同时,它的运行速度快一到两个数量级:每帧处理约 0.011–0.012 毫秒,而竞争系统则需要几十分之一毫秒到接近 1 毫秒不等。这一速度在 GPU 上相当于每秒数万帧,远超任何可穿戴设备的实际需求,为电池节省和设备上其它任务留出充足空间。
这对日常可穿戴设备意味着什么
对非专业读者来说,关键结论是作者找到了将“深度思考”与“快速响应”分离的方式。大型模型可以在训练阶段进行深入思考,以丰富的细节理解人体运动;而经过精心教学并简化后的小模型则在你的腕带、头显或康复支具上处理实时任务。结果是几乎能达到重型实验室系统的跟踪精度,但足够轻量以适应低功耗、常时运行的设备。这为可穿戴设备在运动中提供及时反馈、在工作场所预警不安全动作,或让虚拟世界更自然地响应我们身体的动作铺平了道路,而无需笨重硬件或快速耗电。
引用: Wang, L., Liu, J., Xue, J. et al. Human-centered design-based lightweight wearable IMU human pose estimation. Sci Rep 16, 11420 (2026). https://doi.org/10.1038/s41598-026-41004-5
关键词: 可穿戴传感器, 人体姿态估计, 惯性测量单元, 轻量神经网络, 实时动作跟踪