Clear Sky Science · zh

在 HybridHAR 中整合多尺度卷积与注意力机制以实现高性能人体活动识别

2026-02-21 · 返回目录

为什么教会计算机识别日常动作很重要

我们的手机、手表和其他设备每天都会悄悄记录我们的运动——无论是走路、爬楼梯，还是在沙发上休息。将这些原始运动信号转化为可靠的人体活动理解，可能会改变健康监测、老人护理、康复和智能家居等领域。本文介绍了 HybridHAR，一种旨在更准确、更高效解读这些信号的新型模型，使可穿戴设备更接近实时理解我们正在做什么的能力。

从运动传感器理解活动

人体活动识别是根据智能手机和可穿戴设备内的加速度计、陀螺仪等传感器判断人们在做什么的任务。早期系统依赖专家从这些信号中手工提取特征，然后将其输入传统的机器学习算法。这种方法在受控的实验室环境中有效，但在更杂乱的现实世界中往往失效，因为动作更为多样且噪声更多。深度学习通过自动发现数据中的模式改善了这一点，然而常见架构仍会错过在不同时间尺度上展开的重要细节，并且随着网络加深可能导致信息丢失。

现有深度模型为何仍有困难

人体运动同时在多种时间尺度上发生：一个迅速的步伐、在房间内短暂的行走或长时间的坐着。许多深度学习模型要么关注短片段，要么关注更长的范围，但难以同时兼顾两者。随着网络增加层数以捕捉复杂模式，学习信号可能衰减，导致早期层停止改进。有些模型也缺乏对内部层的引导，因而无法学到对识别在原始信号上看起来相似的活动（例如坐与站）最有用的中层构建块。

一种以多种视角观察运动的混合设计

作者提出了 HybridHAR，一个通过三项协同工作的关键思想来应对这些弱点的精心设计模型。首先，它不使用单一的时间视角，而是将相同的传感器信号通过三条并行处理路径，每条路径关注不同的时间跨度——从非常短到较长的时间段。这些路径就像三副镜片，既捕捉快速手势的细节，又捕捉姿态与运动的较慢趋势。它们的输出随后被融合为一个丰富的、保留各尺度信息的组合表征。

在模型内部施加注意力并引导学习

第二，HybridHAR 在该融合表征之上加入了一个特殊的注意力模块。该机制学会突出信号中最有判断力的部分——例如区分上楼和下楼时运动的微小差别——同时保留一条保持原始信息的捷径路径。这个“残差”捷径有助于学习信号在网络中平稳传递，防止深层信息被冲淡。第三，模型在注意力作用之前接入了一个额外的辅助分类器，用于读取中间特征。在训练过程中，该辅助输出也会被评估，温和地促使早期层学习到已经足以做出活动判断的特征，从而稳定并加速学习过程。

新方法的表现如何

为了测试 HybridHAR，研究人员使用了一个被广泛采用的公开数据集，志愿者佩戴智能手机完成六种基本活动：三种步行以及坐、站、躺。在这个基准上，HybridHAR 在保留验证集上达到约 99% 的准确率，在未见过的测试集上达到 96% 的准确率，超过了若干强有力的替代方法，包括经典卷积网络、循环网络、混合模型和基于强化学习的方法。它在区分相似步行动作方面表现尤为出色，减少了例如上楼与下楼这类易混淆对之间的错误。团队还展示了三项组成要素——多尺度路径、注意力与深度监督——各自都能带来可测的性能提升，完整模型的表现优于缺少其中任何一项的变体。

这对现实设备意味着什么

尽管准确率很高，HybridHAR 仍然紧凑且快速，参数远少于许多竞争模型，能够每秒处理数百个活动窗口并仅使用约一兆字节的内存。它还良好地泛化到第二个更复杂的数据集（活动更多、传感器配置更丰富），在该数据集上的表现甚至更佳。对非专家而言，关键结论是这种设计为将嘈杂的可穿戴信号转化为可信且细粒度的人体活动描述提供了切实可行的蓝图。这类模型能使未来的健康监测、智能家居和安全系统变得更可靠，并更易于在日常设备上运行。

引用: Huo, Y., Wei, C., Xu, Z. et al. Integrating multi-scale convolution and attention mechanisms in HybridHAR for high-performance human activity recognition. Sci Rep 16, 10143 (2026). https://doi.org/10.1038/s41598-026-40904-w

关键词: 人体活动识别, 可穿戴传感器, 深度学习, 注意力机制, 健康监测