Clear Sky Science · zh
用于可穿戴运动图像中高速小目标检测的动态稀疏注意力 YOLC
通过运动员的视角看比赛
想象一下不是从看台,而是通过固定在运动员头部的相机观看网球发球或乒乓球回合。球在视野中划过,成为一个微小的模糊点,但教练和分析师希望确切知道它去了哪里、速度如何以及选手如何反应。本文提出了一种名为 YOLC 的新计算机视觉系统,旨在实时在小型、低功耗的可穿戴设备上检测并跟踪这些快速、小尺寸的目标。
为何微小且快速的目标难以捕捉
可穿戴相机在运动训练中越来越普遍,能捕获第一视角的比赛与训练视频。但从这一视角看,关键目标——羽毛球、网球或短跑起跑选手的起跑脚——常常只占据极少的像素,并在帧间快速移动。现有检测系统要么对低功耗设备太重,要么在目标尺寸小、模糊或距离远时丢失跟踪。作者指出,在真实体育视频中,许多目标小于 32×32 像素且在帧间运动极快,标准方法要么漏检要么反复丢失目标身份,导致轨迹中断,从而破坏任何严谨的性能分析。

为可穿戴相机设计的轻量视觉流水线
研究人员提出了 YOLC(意为“You Only Look Clusters”)——一个为边缘硬件(例如 NVIDIA Jetson Nano)量身定制的完整检测与跟踪流水线。其核心是由高效神经网络家族 MobileNet 构建的精简特征提取器,重塑为主要使用“廉价”算子,以在降低内存与计算开销的同时保留足够细节以识别微小目标。视频帧被调整到平衡的分辨率,产生三层特征图:一层强调小目标的细节,一层用于中等尺寸目标,一层提供对大或远处物体更强的高层语义。这些多尺度特征图为系统其余部分提供输入,系统被精心设计以从每次计算中榨取尽可能多的信息。
让网络只注视重要之处
一项核心创新是“动态稀疏注意力”机制,它模仿人眼只瞥向场景中最有信息部分的方式。YOLC 并不均等处理每个像素,而是衡量图像局部变化的程度——例如在边缘、角点或移动球体轮廓处——并构建纹理响应最强的位置图。随后只保留这些高响应位置中大约前 30% 供后续处理,有效屏蔽诸如墙面、看台或天空等嘈杂背景区域。一种特殊的训练技巧使模型在进行这种硬性截断时仍然可训练。该选择性聚焦不仅通过忽略干扰提高了精度,也大幅削减了网络需要执行的计算量,这在电池供电的可穿戴设备上是一项关键优势。

从清晰特征到稳定轨迹
在聚焦关键区域后,YOLC 使用双向特征金字塔在尺度间融合信息,既从粗到细传递信号,也从细到粗传递。连接的强度由同一注意力图引导,因此重要的小目标在每个阶段都会被放大。在最终的检测步骤中,一个额外的“坐标注意”单元通过沿水平和垂直方向连接信号,帮助系统更好地理解目标在画面中的位置。为了将逐帧检测转为时间上的平滑轨迹,该方法加入了轻量级光流模块——用于估计相邻帧间像素运动的工具——以及一个两阶段匹配方案:先将高置信检测与现有轨迹配对,再谨慎地重用符合预期运动的低置信框。诸组件协同工作,减少身份交换和轨迹中断,即使在目标交叉或短暂被遮挡时亦然。
现实世界中的性能
团队在一个自建的体育数据集上测试了 YOLC,数据集包括羽毛球、篮球、网球、短跑与乒乓球,均由头戴摄像机在真实训练环境中采集。在这些具有挑战性的数据上,系统以 53.5 帧/秒的速度运行,参数量仅 178 万,远小于许多流行目标检测器。它取得了 75.3% 的检测得分(mAP@0.5)和超过 80% 的小目标召回率,优于若干知名的轻量级模型。在跟踪基准中,YOLC 保持了更长、更可靠的轨迹并大幅减少身份切换。在运动模糊与相机抖动下也表现稳健,将误报率大致减半,相较于竞争方法有明显优势。
对体育及更广领域的意义
对教练、分析师和设备制造商而言,结论很明确:对高速体育动作的准确、实时理解不必依赖于庞大的服务器或无瑕的电视级画面。通过谨慎选择何时何处投入计算资源,YOLC 能将嘈杂的第一视角可穿戴视频转化为关于微小快速物体如何移动并与运动员交互的详细记录。这可为训练提供更丰富的反馈、在高强度运动中实现更安全的监控,并更广泛地推动必须在严苛硬件限制下仍需清晰视觉的任何小型设备上的更智能视觉系统。
引用: Chen, H., Song, Y., Liu, W. et al. YOLC with dynamic sparse attention for high-speed small target detection in wearable sports images. Sci Rep 16, 6858 (2026). https://doi.org/10.1038/s41598-026-38079-5
关键词: 可穿戴运动视觉, 小目标检测, 实时跟踪, 边缘人工智能, 注意力机制