Clear Sky Science · zh

MoSA-Det:适用于体育视频的运动状态自适应目标检测

· 返回目录

赛场上更清晰的“眼睛”

当你在电视上观看实时比赛时,摄像机和图形系统跟踪每位球员和球的过程看起来很轻松。但在幕后,计算机在面对高速动作时尤其吃力。本文提出了一种新的算法观看方式,能跟上快速运动并提供更清晰、更可靠的跟踪,适用于转播叠加、战术分析和训练等场景。

Figure 1. 在体育视频中,适应运动速度如何帮助计算机更清晰地追踪球员和球。
Figure 1. 在体育视频中,适应运动速度如何帮助计算机更清晰地追踪球员和球。

为什么快速动作会让计算机困惑

体育视频充满了快速冲刺、远距离传球和大幅度的摄像机移动。对于计算机视觉系统来说,这会造成两个主要问题。首先,当球员或球运动很快时,会产生模糊,丢失检测器依赖的清晰边缘和纹理。作者表明,在这些情况下,网络内部的数字信号会变弱且不稳定,使系统对所见不再自信。其次,许多现代视频方法通过融合相邻帧的信息来提升判断。如果物体在帧间几乎不移动,这种方法效果很好,但在高速运动的体育场景中,物体可能移动得很远,位置不再对齐,加入更多帧反而会引入噪声并降低精度。

一个能适应运动的系统

研究者提出了 MoSA-Det,一个根据图像中每个区域的运动速度改变处理方式的框架。系统不再对每个像素一视同仁,而是首先为每个位置估计一个运动“状态”,将其分为静止、慢速或快速。它通过比较连续帧之间的特征并分析它们在邻近区域的匹配强度来实现这一点。这个运动图随后引导两个关键模块:一个侧重于提高单帧中所见内容的清晰度,另一个决定随时间对来自其他帧的信息信任程度。

消除模糊的球员和球

第一个模块称为运动感知自适应特征模块,它在单帧内部处理模糊问题。该模块将每个区域通过多个支路处理,这些支路查看不同大小的邻域,从非常局部的细节到更广泛的周边区域。运动图告诉网络如何混合这些视角:慢速或静止区域更依赖小范围邻域以保留细节,而快速区域则更倾向于更宽的视野以聚合分散的信息。对于极快的区域,如飞行的球,该模块会启用一个特殊分支,该分支学习“弯曲”其采样网格以更好地跟随被扭曲的形状,即使在强模糊下也有助于恢复有用信号。

Figure 2. 一种智能检测器如何随时间对慢速与快速运动采取不同处理,以避免体育视频中的模糊和位移错位。
Figure 2. 一种智能检测器如何随时间对慢速与快速运动采取不同处理,以避免体育视频中的模糊和位移错位。

仅在有利时利用时间信息

第二个模块——状态引导的时间聚合模块,决定如何跨帧结合信息而不让错位造成损害。它使用运动图为每个位置调整对过去和未来帧的权重。在静止区域,它较均匀地混合多帧,这可以平滑噪声并使检测更稳定。在快速移动的区域,它将权重集中在当前帧,并在混合之前使用学习到的位移对旧帧进行大致对齐,即便如此也会谨慎地融合它们。一个小的额外分支还会微调最终的边界框,以纠正模糊可能导致的移动物体表观中心偏移。

这些结果对体育技术意味着什么

在两个大型体育视频数据集(包含足球、篮球和排球)上的测试表明,MoSA-Det 始终优于现有的强基线方法。它在拥挤场景、高运动强度下以及要求非常精确轮廓的更严格阈值下对球员和球的检测更准确。更重要的是,它仍能保持实时转播所需的速度。对非专业读者来说,主要的信息是:该系统教会计算机对慢速和快速运动采取不同的关注策略,而不是一刀切,从而在高速比赛中实现更干净的跟踪和更可靠的图形展示。

引用: Yang, L., Sun, W. & Ren, J. MoSA-Det: motion state adaptive object detection for sports videos. Sci Rep 16, 15969 (2026). https://doi.org/10.1038/s41598-026-43231-2

关键词: 体育视频检测, 目标跟踪, 运动模糊, 计算机视觉, 深度学习