Clear Sky Science · zh

使用渐进子动作回归的语义感知自监督学习用于动作质量评估

· 返回目录

通过新视角观察表现

当我们观看奥运跳水选手或其他精英运动员时,会本能地判断谁的表现更好,但把这种直觉转化为客观数字并不简单。现有的自动化视频系统可以给出动作的总体“得分”,但很少解释某次动作为何好或差、或者哪一部分需要改进。本文提出了一种让计算机以新方式观察复杂视频动作的方法:将动作分解为可理解的片段,并对每个片段分别评分——提供更接近人类教练的反馈。

Figure 1
Figure 1.

将复杂动作拆解为可管理的部分

许多现有的动作质量工具把整个跳水或动作视为一个整体,只产生一个总体得分。这掩盖了关键细节:一名跳水运动员可能起跳完美但入水糟糕,而单一数字无法揭示这一点。作者通过让计算机将每个视频自动划分为有意义的阶段或子动作(例如准备、起跳、飞行和入水)来解决这一问题。重要的是,这种划分是自动完成的,无需人工标注阶段边界。通过一种无监督聚类方法,把在时间上“表现”相似的相邻帧分组,为系统提供了一个粗略但可靠的动作分镜。

让系统自我学习何为重要

视频被划分为阶段后,系统需要理解每个阶段在良好或糟糕执行时的表现。作者没有依赖繁重的人工标签,而是采用自监督学习:模型会看到同一子动作的多个版本,其中故意移除或“遮挡”了一些帧。系统必须为完整片段与部分缺失的片段产生相似的内部表征。通过学习忽略这些人为的空缺,模型变得对现实世界中的短暂遮挡、缺帧或略微不精确的阶段边界更具鲁棒性,并学会关注定义质量的核心运动和姿态模式。

Figure 2
Figure 2.

从一个总体分到多个有用的子分数

真实数据集通常只包含每次跳水的单个总体得分,而没有各阶段的单独评分。为了解决这一点,作者提出了渐进式“伪子分数”策略。首先,他们将总体得分与每个子动作新学得的特征融合,并训练小型网络来预测每个阶段的临时分数。然后通过允许信息沿序列流动来细化这些预测:每个阶段的特征会使用前一阶段的分数进行更新,以捕捉例如起跳的小错误如何波及到飞行和入水。在另一种变体中,每个阶段可以访问所有之前阶段的分数,以建模整个动作中的远程因果关系。最后,一个紧凑的回归网络将这些细化后的阶段分数组合成总体预测,此时该网络输入不再需要看到真实总体得分。

在真实跳水比赛上的测试

研究者在两个来自大型国际赛事的高难度跳水数据集上评估了他们的框架。这些数据集提供了人工裁判的总体得分,有时包含粗略的阶段时序,但没有阶段级别的质量标签。该方法在排序相关性上达到了最先进水平,意味着其运动员排序与专家裁判非常接近,同时也降低了预测分数的数值误差。细致的消融实验表明两大核心思想——自监督特征精炼与渐进伪子分数建模——都带来了显著改进。值得注意的是,使用自动阶段边界的表现几乎可以与人工精细标注相媲美,表明系统对不完美分割具有一定容错性。

把数字转化为有洞见的训练建议

除了准确性外,这种方法使自动评分更具可解释性。通过为跳水的每个阶段赋予单独分数,系统可以指出例如两名选手在起跳和飞行阶段表现相近,但在入水阶段差异明显——一人溅起了很大的水花。对大量样本的分析确认这些阶段分数与人工裁判的侧重点一致,且入水阶段通常最为关键。在实际应用中,该方法能指引运动员和教练明确需要改进的具体环节,同时仍然只需相对简单的训练数据。尽管在跳水上进行了展示,该概念也足够灵活,可扩展到其他多步骤任务——从外科手术到康复训练——在这些场景中理解每个片段对整体质量的贡献至关重要。

引用: Mazruei, M., Fazl-Ersi, E., Vahedian, A. et al. Semantic-aware self-supervised learning using progressive sub-action regression for action quality assessment. Sci Rep 16, 6670 (2026). https://doi.org/10.1038/s41598-026-36668-y

关键词: 动作质量评估, 体育视频分析, 自监督学习, 人体动作评分, 用于教练的深度学习