Clear Sky Science · ja

信頼度認識回帰と適応テンプレート更新を備えたトランスフォーマー拡張二重ブランチのシアミーズトラッカー

2026-01-13 · 一覧に戻る

混雑した場面で単一の物体を追うようコンピュータに教える

自動運転車から家庭用監視カメラやドローンまで、多くの現代機器は忙しく変化する世界の中で単一の動く物体を追い続ける必要があります。このタスクは視覚的物体追跡と呼ばれ、人間には簡単に思えても機械には非常に難しい問題です：人がカメラの前を通り過ぎたり、照明が変化したり、対象が遠ざかって小さくなったり一時的に隠れたりします。本論文は TSDTrack を紹介します。これは深層学習とトランスフォーマーの最近の進歩を活用して、実世界の条件下でターゲットをより確実に追い続ける新しい追跡システムです。

なぜ一つの物体を追うのが難しいのか

トラッカーは通常、動画の最初のフレームでしか物体をはっきり見られず、その後シーンが変化しても追い続けなければなりません。従来の手法は、人手で設計した画像特徴に依存するか、最初のフレーム（「テンプレート」）と各新しいフレームを比較するニューラルネットワークに頼っていました。これらの古いシステムには三つの大きな弱点がありました。第一に、通常は元のテンプレートを固定したままにするため、物体が回転したり部分的に覆われたりサイズが変わるとトラッカーは苦戦します。第二に、単一の解像度や特徴スケールに注目してしまい、エッジの微細情報と広い文脈の両方を組み合わせて認識する能力を欠いていました。第三に、自分の予測を疑うタイミングを知らなかったことです：予測したボックスを出すものの、その推定の信頼性を示す明確な指標がなく、背景へドリフトしやすくなっていました。

全体文脈と細部の融合

TSDTrack は、古典的な「シアミーズ」追跡設定とトランスフォーマーを組み合わせることでこれらの問題に対処します。トランスフォーマーは言語や視覚タスクを変革した注意機構ベースのモデルです。本システムは、ターゲットを定義する小さなパッチと現在の探索領域を含む大きなパッチという二つの入力から特徴を抽出する深層ネットワークを用います。単一の特徴スケールに依存する代わりに、エッジや形状、物体レベルのパターンを表すネットワークの複数の層から情報を引き出します。トランスフォーマーベースの融合モジュールはこれらの層をどのように混ぜ合わせるかを学習し、トラッカーが画像内の位置と広いシーンとの関係の両方を理解できるようにします。これにより、視界がノイズに覆われたり部分的に遮られたりしても、類似の物体や背景の雑音からターゲットを区別しやすくなります。

トラッカー自身の確信度を知る

TSDTrack の中核は二重ブランチの予測ヘッドで、タスクを「物体はどこか？」と「この答えをどれだけ信頼すべきか？」という二つの関連した問いに分割します。一方のブランチは、ターゲットの見た目の類似性だけでなく、予測されたボックスがありそうな物体領域とどれだけ重なるかを反映する信頼度スコアを推定します。もう一方のブランチはボックス座標を単一の予測として扱うのではなく、多くの可能な位置にわたる確率分布として表現し、不確実性をモデル化します。画像が鮮明なときは分布が鋭くなりボックスは精密になりますが、物体がぼやけたり部分的に隠れたりすると分布は広がります。この確率的な見方により、単一の厳格な予測を行っていた古いトラッカーに比べて、より滑らかで安定したボックス配置が得られます。

元の情報を忘れずに記憶を更新する

追跡における重要な危険は「テンプレートドリフト」です：モデルが不良フレームで自身の物体像を更新し続けると、徐々に背景を学んでしまうことがあります。TSDTrack は信頼度ブランチをゲートキーパーとして機能させることでこれに対処します。システムは信頼度スコアが選択した閾値を上回った場合にのみ内部テンプレートを更新し、しかも新しい情報をそのまま置き換えるのではなく元のビューと穏やかに混合します。この選択的な更新により、人が振り向く、車が回転するなどの本当の変化には適応しつつ、一時的な遮蔽や気を散らす要因によって誤導されることを避けられます。元のテンプレートは、後での更新が誤りであった場合に備えた安定した参照としても保持されます。

実用上の結果の意味

著者らは長時間動画、高速運動、ドローンからの航空映像、雑然としたシーンなど、広く使われる複数の追跡ベンチマークで TSDTrack を評価しました。これらのテストにおいて、新手法は精度（ボックスが真の物体にどれだけ近いか）とロバスト性（物体を完全に見失う頻度の低さ）の両面で多くの先行トラッカーを一貫して上回り、かつ現代のハードウェア上でリアルタイム動作に十分な速度も維持しました。専門外の方への要点は、TSDTrack が実世界のカメラで見られる乱れた条件下でも選んだターゲットをより確実に追えるようになるということです。マルチスケールのトランスフォーマー推論、自らの信頼度の把握、慎重なテンプレート更新を組み合わせることで、自動運転、スマート監視、知能化ロボットといった応用におけるより信頼できる基盤を提供します。

引用: Sachin Sakthi, K.S., Jeong, J.H. & Choi, W.Y. Transformer-augmented dual-branch siamese tracker with confidence-aware regression and adaptive template updating. Sci Rep 16, 5170 (2026). https://doi.org/10.1038/s41598-026-35692-2

キーワード: 視覚的物体追跡, トランスフォーマーベースの追跡, シアミーズネットワーク, コンピュータビジョン, 自律システム