Clear Sky Science · ja

動作品質評価のための進行的サブアクション回帰を用いた意味認識自己教師あり学習

· 一覧に戻る

新しい視点でパフォーマンスを見通す

オリンピックのダイバーや他のトップアスリートを観ると、どちらがより優れているか直感的にわかりますが、その直感を客観的な数値に変えるのは難しいです。現在の自動映像システムは動作に対して全体的な「スコア」を付けることはできますが、なぜそのダイブが良いあるいは悪いのか、どの部分を改善すべきかを説明することはほとんどありません。本論文は、コンピュータが映像中の複雑な動作を観察し、理解しやすい断片に分解し、それぞれを個別に評価する新しい手法を提示します。これにより、人間のコーチが与えるフィードバックに近い形の情報が得られます。

Figure 1
Figure 1.

複雑な動きを扱いやすい断片に分ける

多くの既存の動作品質評価ツールは、ダイブや動作全体をひとつの塊として扱い、単一の総合スコアしか出しません。これは重要な詳細を隠してしまいます。たとえば、踏み切りは完璧でも、入水が悪ければそれは見えにくくなります。著者らはこれに対処するため、映像を開始、踏み切り、飛行、入水といった意味のある段階(サブアクション)に分割することを学習させます。重要なのは、この分割が人手で境界を指定することなく自動的に行われる点です。隣接するフレームが時間的に似た“振る舞い”を示すもの同士をグループ化する無監視クラスタリング手法により、パフォーマンスの大まかだが信頼できるストーリーボードが得られます。

システム自身に重要な点を学ばせる

映像が段階に分割された後、各段階が良く行われた場合や悪く行われた場合にどのように見えるかをシステムが理解する必要があります。手作業による詳細なラベルに頼る代わりに、著者らは自己教師あり学習を用います。モデルには同じサブアクションの多くのバージョンが提示され、フレームの塊を意図的に除去あるいは「マスク」したものも含まれます。システムは、完全なクリップと部分的に欠けたクリップの両方に対して類似した内部表現を出力することを求められます。こうした人工的な欠損を無視することを学ぶことで、短時間の遮蔽やフレーム欠落、境界のわずかなずれといった現実的な問題に対して頑健になり、品質を定義する運動や姿勢の本質的なパターンに注目するようになります。

Figure 2
Figure 2.

単一の総合スコアから有益なサブスコアへ

実世界のデータセットには通常、各ダイブについて段階ごとの評価ではなく単一の総合スコアしか含まれていません。これを克服するため、著者らは進行的な「擬似サブスコア」戦略を導入します。まず、総合スコアと各サブアクションの新しく学習された特徴を融合し、小さなネットワークで各段階の暫定スコアを推定します。次に、列の沿いに情報が流れることを許すことでこれらの推定を洗練します:各段階の特徴は前の段階のスコアを用いて更新され、踏み切りの小さなミスが飛行や入水にどのように波及するかを捉えます。第二のバリアントでは、各段階がすべての前段階スコアにアクセス可能とし、動作全体にわたる長距離の因果関係をモデル化します。最後に、小さな回帰ネットワークが洗練された段階スコアを結合して総合予測を生成しますが、このとき入力で真の総合スコアを見る必要はありません。

実際のダイビング競技での検証

研究者らは、このフレームワークを主要な国際大会から記録された二つの厳しいダイビングデータセットで評価しました。これらのコレクションは人間の審判による総合スコアを提供し、場合によっては大まかな段階タイミングも含みますが、段階レベルの品質ラベルはありません。本手法は順位相関で最先端の性能を達成しており、競技者の並びが専門の審判の評価とよく一致するとともに、予測スコアの数値誤差も減少させました。詳細なアブレーション実験により、自己教師あり特徴の改善と進行的擬似サブスコアモデリングという二つの主要アイデアがそれぞれ大きな寄与をしていることが示されました。特筆すべきは、自動的に得た段階境界を用いても手作業で丹念に付けた注釈を用いた場合とほぼ同等の性能が得られ、システムが不完全なセグメンテーションに対しても頑健であることが示された点です。

数値を洞察に変えるコーチングへの応用

精度向上に加えて、このアプローチは自動評価の解釈可能性を高めます。ダイブの各段階に個別のスコアを割り当てることで、例えば二人のダイバーが踏み切りや飛行は似ているが入水で大きく差が出ている(片方は大きな飛沫を立てる)といった具体的な違いを示せます。多数のサンプルを分析すると、これらの段階スコアは審判の優先順位に沿う傾向があり、しばしば入水段階が最も重視されることが確認されます。実務的には、この手法は比較的シンプルな訓練データからでも、アスリートやコーチにどの部分を改善すべきかを正確に示すことができます。ダイビングで実証されていますが、この考え方は外科手術やリハビリ運動など、各区間が全体の品質にどう寄与するかを理解することが重要な他の多段階タスクにも柔軟に拡張可能です。

引用: Mazruei, M., Fazl-Ersi, E., Vahedian, A. et al. Semantic-aware self-supervised learning using progressive sub-action regression for action quality assessment. Sci Rep 16, 6670 (2026). https://doi.org/10.1038/s41598-026-36668-y

キーワード: 動作品質評価, スポーツ映像解析, 自己教師あり学習, 人間の動作スコアリング, コーチングのための深層学習