Clear Sky Science · ja

MoSA-Det: スポーツ映像向けの動き状態適応型物体検出

· 一覧に戻る

グラウンドをより鮮明に見る

テレビで試合中継を見ると、カメラや画面表示が選手やボールを難なく追跡しているように見えます。しかし実際には、高速の動きにコンピュータは特に苦戦します。本論文は、素早い動きに追随できるアルゴリズムの新しい手法を提案し、放送用オーバーレイや戦術解析、トレーニングといった用途で、よりクリーンで信頼できる追跡を実現します。

Figure 1. 動きの速さに適応することが、スポーツ映像で選手やボールをより鮮明に追跡する手助けになる仕組み。
Figure 1. 動きの速さに適応することが、スポーツ映像で選手やボールをより鮮明に追跡する手助けになる仕組み。

なぜ高速な動きがコンピュータを混乱させるのか

スポーツ映像にはダッシュ、ロングパス、パンニングなど素早い動きが満ちています。これがコンピュータビジョンにとって二つの大きな問題を生みます。第一に、選手やボールが速く動くと画像がぼけ、検出器が頼る輪郭やテクスチャが失われます。著者らは、このような場合にネットワーク内部のデジタル信号が弱まり不安定になるため、システムの確度が下がることを示しています。第二に、多くの現代的な動画手法は近傍の複数フレームを融合して判断を改善しますが、物体がフレーム間で大きく移動すると位置が合わなくなり、フレームを追加することでかえってノイズが入り精度が低下してしまいます。

動きに応じて処理を変えるシステム

研究者らはMoSA-Detを提案します。これは画像の各領域の動き速さに応じて処理を変えるフレームワークです。すべての画素を同じ扱いにするのではなく、まず各位置の動き「状態」を推定し、静止/遅い/速いに分類します。これは連続フレーム間で特徴を比較し、近傍でどれだけ強く一致するかを解析することで得られます。この動きマップは二つの主要モジュールを導きます:一つは単一フレーム内での視認性を高めるモジュール、もう一つは時間方向の情報をどの程度信頼するかを決めるモジュールです。

ぼやけた選手やボールをきれいにする

第一のモジュール、Motion-Aware Adaptive Feature Module(動き認識適応特徴モジュール)は、各フレーム内のぼけ問題に対処します。各領域を非常に局所的な詳細から広い周辺情報まで異なる大きさの複数の視野を持つブランチに通します。動きマップはこれらの見方をどう混ぜるかをネットワークに指示します:静止または遅い領域では細かなディテールを保つため小さな近傍を重視し、速い領域では散らばった情報を集められる広い視野に重みを置きます。最も速い領域、例えば飛んでいるボールのような箇所では、サンプリング格子を「曲げる」ことを学習する特殊なブランチが活性化し、強いぼけの下でも有用な信号を回復する手助けをします。

Figure 2. 時系列で遅い動きと速い動きを区別して処理することで、ぼけや位置ずれを回避するスマートな検出器の働き方。
Figure 2. 時系列で遅い動きと速い動きを区別して処理することで、ぼけや位置ずれを回避するスマートな検出器の働き方。

有益なときだけ時間を使う

第二のモジュール、State-Guided Temporal Aggregation Module(状態誘導型時間積み重ねモジュール)は、位置ずれによる害を避けつつフレーム間の情報をどう組み合わせるかを決めます。各位置に対して動きマップを用いて過去・将来フレームの重みを調整します。静止領域では複数フレームを比較的均等に混ぜることでノイズをならし検出を安定化させます。速く動く領域では現在フレームに重心を置き、過去フレームを混ぜる前に学習したシフトで大まかに位置を合わせ、それでも慎重に混ぜます。さらに小さな追加ブランチが、ぼけによって動く物体の見かけ上の中心がずれることを補正するために最終的なバウンディングボックスを微調整します。

スポーツ技術にとっての成果の意義

サッカー、バスケットボール、バレーボールを含む二つの大規模スポーツ映像データセットで評価したところ、MoSA-Detは既存の強力な手法を一貫して上回りました。特に混雑した場面や激しい動きがある状況、非常に厳しい精度閾値での輪郭精度において、選手やボールをより正確に検出します。重要なのは、リアルタイム放送に十分な速度で動作する点です。一般向けに言えば、このシステムは一律の処理をやめ、遅い動きと速い動きを状況に応じて区別して注意を向けることをコンピュータに教えることで、高速プレー中の追跡をよりクリーンで信頼できるものにする、ということです。

引用: Yang, L., Sun, W. & Ren, J. MoSA-Det: motion state adaptive object detection for sports videos. Sci Rep 16, 15969 (2026). https://doi.org/10.1038/s41598-026-43231-2

キーワード: スポーツ映像検出, 物体追跡, 動きぼけ, コンピュータビジョン, 深層学習