Clear Sky Science · zh

用于自由式摔跤动作识别的 CNN–Bi-LSTM 流水线与开放 FSW 数据集

· 返回目录

教计算机“看”摔跤

自由式摔跤动作迅速、缠绕且观看起来混乱——即便对人类观众也是如此。对于计算机来说,在拥挤的场地中区分一种抛摔与另一种更加困难。本研究展示了如何通过精心设计的视频流水线和一个新的公开数据集,帮助机器识别具体的摔跤技术,从而为更智能的体育分析、教练工具和自动集锦生成打开可能性。

近身接触体育的挑战

大多数现代视频识别系统是在人物相对独立、易于辨认的片段上训练的,例如有人慢跑或挥网球拍。自由式摔跤则不同:选手紧紧纠缠、四肢重叠,场景中还充斥着裁判、垫子和欢呼人群等干扰。标准基准并未捕捉这种复杂性,因此在日常动作上表现良好的一些方法,在摔跤选手胶着、翻滚和快速扭转时常常会失效。

构建新的摔跤动作库

为弥补这一空白,作者构建了 Open FSW 数据集——一个包含 210 个短视频片段的经挑选集合。每个片段只展示一次完整动作,来自七类明确定义的技术,例如髋摔、抱腿和滚扫。片段来源于两类素材:一是少数运动员的控制训练场景,二是来自公开比赛的转播,这为摄像角度、光照和背景杂乱性增加了多样性。专家和裁判参与了每个片段的标注,数据集的划分保证同一场比赛或训练的片段不会同时出现在训练集和测试集中,以降低性能被高估的风险。

Figure 1
Figure 1.

关注摔跤选手,而非观众

该方法的核心是教计算机“关注”摔跤选手并在很大程度上忽略其他内容。每帧视频首先通过分割模型,将运动员与背景分离并生成干净的前景轮廓。然后这些前景帧由深度图像网络处理,将每张图像压缩为紧凑的特征向量——本质上是对该时刻选手形态与位置的数值摘要。最后,一个双向序列模型查看整个帧摘要序列,从前到后再从后到前,来判定该片段中执行的是七种技术中的哪一种。

系统识别动作的效果如何

研究者测试了若干流行的图像编码器,并将其前景感知流水线与主要依赖选手骨架轮廓的早期方法进行了比较。他们的最佳配置结合了微调的分割、以 EfficientNet 为主干的图像编码器和序列模型,在约 83% 的片段中正确识别动作。这比强力的骨架基线方法以及省略前景步骤的系统版本都有明显提升。提升在身体高度缠绕且背景干扰严重的动作上最为显著。跨多个数据折的统计检验表明,这些改进不太可能是偶然所得。

Figure 2
Figure 2.

权衡、局限与更广泛的影响

关注选手也带来代价:在测试硬件上增加分割步骤大约使每个片段的处理时间翻倍。对于离线分析——例如赛后回放或研究——该开销是可以接受的,但实时应用可能需要更快的分割模型或更强的计算设备。研究还指出数据集规模相对较小,他们通过迁移学习和数据增强来应对;同时在极端运动模糊或严重遮挡情况下,分割也会遇到困难。

对球迷和教练的意义

简而言之,这项工作表明,通过在分析动作前先把计算机看到的画面“清理”——将摔跤选手从杂乱场景中分离出来——可以显著提高识别具体动作的能力。尽管当前结果针对自由式摔跤进行了调优,但同样的思路可以推广到柔道或巴西柔术等其他近身接触类运动。通过公开数据集和代码,作者为未来能够自动解析复杂缠斗交流的系统奠定了基础,帮助教练、运动员和观众更好地理解赛场上的动作。

引用: Rostamian, M., Mottaghi, A. & Soryani, M. A CNN–Bi-LSTM pipeline and open FSW dataset for freestyle wrestling action recognition. Sci Rep 16, 14632 (2026). https://doi.org/10.1038/s41598-026-44782-0

关键词: 自由式摔跤, 动作识别, 体育分析, 计算机视觉, 深度学习