Clear Sky Science · ja
ウェアラブルスポーツ画像における高速小型ターゲット検出のための動的スパース注意を備えたYOLC
選手の目を通してスポーツを見る
観客席からではなく、選手の頭に取り付けたカメラ越しにテニスのサーブや卓球のラリーを見ることを想像してください。ボールは視野を小さなブレとして走り抜けますが、コーチやアナリストは正確にどこへ行ったか、どれくらいの速さか、選手はどう反応したかを知りたがります。本稿は、こうした高速で小さな物体をリアルタイムで、しかも低消費電力の小型ウェアラブル機器上で検出・追跡するために設計された新しいコンピュータビジョンシステム、YOLCを紹介します。
なぜ小さく速いターゲットは捕まえにくいのか
ウェアラブルカメラはスポーツトレーニングで一般的になり、第一人者視点の映像で試合や練習を記録します。しかしこの視点では、シャトルコックやテニスボール、スプリント走者の踏み出しの足など重要な物体が数ピクセルしか占めないことが多く、フレーム間で急速に移動します。既存の検出システムは低消費電力機器には重すぎるか、物体が小さい、ぶれている、遠いといった状況で追跡を失います。本稿の著者らは、実際のスポーツ映像では多くのターゲットが32×32ピクセル未満であり、フレーム間の移動が大きいため標準的な手法では見落としたり識別が入れ替わって軌跡が途切れ、精度の高いパフォーマンス解析が困難になることを示しています。

ウェアラブルカメラ向けの軽量ビジョンパイプライン
研究チームはYOLC("You Only Look Clusters"の略)を導入しました。これはNVIDIA Jetson Nanoのようなエッジハードウェア向けに最適化された検出/追跡の完全なパイプラインです。その中核はMobileNetとして知られる効率的ニューラルネットワーク族から構築された簡素化された特徴抽出器で、メモリと計算を削減しつつ小さな物体を検出するための十分な詳細を保つために主に“安価な”演算を用いるよう再設計されています。ビデオフレームはバランスの取れた解像度にリサイズされ、小さなターゲット向けの細部を強調するマップ、中程度の物体向けのマップ、大きいまたは遠方の対象のための高レベルな意味情報を強めたマップという三段階の特徴マップが生成されます。これらのマルチスケールマップはシステムの残りの部分に入力され、各計算からできるだけ多くの情報を絞り出すよう綿密に設計されています。
重要な箇所だけをネットワークに見させる
中核的な革新は「動的スパース注意」機構で、人間が場面の最も情報量の多い部分だけを一瞥するような振る舞いを模倣します。すべての画素を均等に処理する代わりに、YOLCはエッジやコーナー、移動するボールの輪郭など局所的に画像がどれだけ変化しているかを測り、テクスチャが最も顕著な場所の地図を作成します。そしてこれらの高応答位置の上位約30パーセントだけを以後の処理に残し、壁や観客席、空といったノイズの多い背景領域を実質的に切り捨てます。特殊な訓練上の工夫により、この厳しい切断を行ってもモデルは完全に訓練可能な状態を保ちます。この選択的な注目は、気を散らす要素を無視することで精度を向上させるだけでなく、バッテリー駆動のウェアラブルにとって重要な計算量を大幅に削減します。

鋭い特徴から安定した軌跡へ
主要領域に注目した後、YOLCは双方向の特徴ピラミッドを使ってスケール間の情報を統合します。このピラミッドは粗い層から細かい層へ、また細かい層から粗い層へと信号を伝搬させます。これら接続の強さは同じ注意マップによって導かれるため、重要な小さな物体は各段階で増幅されます。最終的な検出段階では、さらに“座標注意”ユニットが加わり、水平方向と垂直方向に沿った信号を結びつけることでフレーム内で物体がどこにいるかをよりよく理解します。フレームごとの検出を時間的に滑らかな追跡に変えるために、同手法は軽量のオプティカルフロー(連続フレーム間で画素がどう動くかを推定するツール)モジュールと、まず高信頼度の検出を既存のトラックに対応付け、その後期待される動きに合致する低信頼度のボックスを慎重に再利用する二段階マッチング方式を追加します。これらの要素が組み合わさることで、物体が交差したり一時的に隠れたりしても識別の入れ替わりや断絶を減らします。
現実世界での性能
チームはバドミントン、バスケットボール、テニス、短距離走、卓球を含むカスタムのスポーツデータセットでYOLCを評価しました。いずれも頭部装着カメラで実際のトレーニング環境下で撮影された難易度の高い映像です。この素材に対してシステムは53.5フレーム毎秒で動作し、パラメータ数はわずか178万に過ぎず、一般的な多くの物体検出器より遥かに軽量です。検出スコア(mAP@0.5)は75.3%を達成し、小物体のリコールは80%を超え、いくつかの著名な軽量モデルを上回りました。追跡ベンチマークでもYOLCはより長く信頼性の高い軌跡を維持し、識別の入れ替わりを大幅に削減しました。また、動きによるブレやカメラの揺れに対しても堅牢で、競合手法と比べて誤検出率を概ね半減させました。
スポーツとそれ以上への意味
コーチ、アナリスト、機器メーカーにとって明確なメッセージがあります。高速なスポーツ動作を正確にリアルタイムで理解するために、大型サーバーやテレビ品質の映像に頼る必要はありません。どこにいつ計算資源を割くかを注意深く決定することで、YOLCはノイズの多い第一人称のウェアラブル映像を、小さく速い物体が選手とどう動き相互作用するかの詳細な記録へと変えます。これによりトレーニングでのより充実したフィードバック、高強度スポーツでの安全なモニタリング、さらには厳しいハードウェア制限下でも明瞭に見る必要がある小型デバイス上でのより賢いビジョンシステムが実現できます。
引用: Chen, H., Song, Y., Liu, W. et al. YOLC with dynamic sparse attention for high-speed small target detection in wearable sports images. Sci Rep 16, 6858 (2026). https://doi.org/10.1038/s41598-026-38079-5
キーワード: ウェアラブルスポーツビジョン, 小物体検出, リアルタイム追跡, エッジAI, 注意機構