Clear Sky Science · zh
基于迁移神经网络质量评分解耦的复杂体育场景运动员动作质量评估
为何更智能的体育评分很重要
从奥林匹克跳水到霹雳舞对决,许多运动依赖人工裁判把复杂动作浓缩成单一分数。但长时表演往往并不均匀:有的片段精彩,有的则不稳或只是过渡。本研究探索人工智能如何观看完整的复杂表演视频,挑出真正重要的时刻,并生成更一致、更细粒度的评分,以辅助裁判、教练、医生和普通学习者。
观看完整表演,而不仅仅是高光片段
传统用于评分的计算系统常把整个视频视为每一秒同等重要,但这一假设在真实赛况中往往失效。例如在霹雳舞中,前期与音乐契合的步伐远不及后半段的地板动作、定格或高速旋转那样关键。现有方法经常把所有信息平滑处理,导致精彩动作或关键失误被掩盖。作者将此归纳为长时技能视频中的一个通用问题:质量随时间起伏,正负证据可能在同一表演中并存。他们的目标是构建一个能把关键时刻从背景运动中分离出来的系统,从而更容易比较两名选手的真实表现水平。

从两种不同视角审视同一次表演
所提出的模型用两条独立的通道观察每个视频。一条“动态”流关注随时间变化的运动,使用短片段捕捉节奏、流动性与连贯性;另一条“静态”流分析单帧画面,捕捉姿态、身体控制以及可能只在瞬间出现的小幅形态错误。关键在于两条流不会过早混合。每条流先学习其对表演的独立理解,这有助于防止短暂的姿态失误被长时间的顺滑序列淹没,或反之亦然。只有在每条流形成了各自的质量感知特征后,才将它们结合以估计整体分数。
将精彩动作与薄弱环节分离
系统的核心是一个“分数解耦”模块,它显式地把看起来像高质量证据的视频片段与暗示较弱或有缺陷执行的片段分开。受现代基于注意力网络的启发,模型学习两个内部“原型”:一个用于发现高质量时刻,另一个用于关注低质量时刻。在处理视频时,每个原型会对不同片段赋予不同权重,生成两个互补的摘要:一个由看起来最佳的片段构建,另一个由最差或最无帮助的片段构建。同时还保留一个随时间的简单平均作为中性基线。特殊的训练规则促使高质量与低质量视角以有用的方式产生分歧并聚焦于视频的不同部分,而不是都收敛到同几帧明显的画面上。

通过成对比较学习对表演排序
该系统主要基于成对比较进行训练,而不是完全依赖人工专家的精确数值分数:给定两段视频,哪位表演者总体技能更好?对于每一对,模型会预测其高质量、低质量和平均分支的分数,并在排序错误或分离出的分支未能比简单平均更具判别力时受到惩罚。额外的训练项鼓励“好”与“坏”视角强调不同的时间片段。训练完成后,系统即可观看单段新视频并输出一个稳定的质量分数,而无需同时看到参考视频。
从霹雳舞对决到外科手术与日常技能
为验证方法,作者构建了一个世界级霹雳舞对决的新数据集,并在两类现有的长时技能视频集合上评估该方法:日常任务(如绘画、烹饪和打领带)以及外科与精细运动活动。在这些多样化场景中,他们的模型通常在判定哪段视频展示了更高技能方面匹配或超过了领先方法。其内部注意力图的可视化显示,高质量分支倾向于在控制良好、技术要求高的动作周围点亮,而低质量分支则强调尴尬的过渡或未完成的动作。对普通读者来说,结论是该系统教会计算机不仅识别正在发生的动作,更评估动作完成得如何——通过在合成最终可解释分数之前,仔细分离表演中最好的与最差的部分。
引用: Gao, L., Ma, Y., Bi, S. et al. Athlete action quality assessment based on transfer neural network quality score decoupling in complex sports scenarios. Sci Rep 16, 15795 (2026). https://doi.org/10.1038/s41598-026-43987-7
关键词: 动作质量评估, 体育视频分析, 霹雳舞, 基于注意力的模型, 技能评估