Clear Sky Science · ru

MoSA-Det: адаптивное обнаружение объектов по состоянию движения для спортивных видео

· Назад к списку

Более четкий взгляд на поле

Когда вы смотрите прямую трансляцию матча, кажется, что камерам и графике легко отслеживать каждого игрока и мяч. На практике же компьютерам особенно тяжело справляться с быстрыми эпизодами. В этой работе предложен новый способ, позволяющий алгоритмам «наблюдать» за спортом так, чтобы успевать за стремительным движением и обеспечивать более чистое, надежное отслеживание для задач вроде трансляционных наложений, тактического анализа и тренировки.

Figure 1. Как адаптация к скорости движения помогает компьютерам яснее отслеживать игроков и мяч в спортивных видео.
Figure 1. Как адаптация к скорости движения помогает компьютерам яснее отслеживать игроков и мяч в спортивных видео.

Почему быстрая игра сбивает компьютеры

В спортивных видео полно стремительных рывков, дальних передач и больших панорамных движений камеры. Для систем компьютерного зрения это создает две большие проблемы. Во‑первых, когда игроки или мяч двигаются быстро, они становятся размытыми — теряются резкие контуры и текстуры, на которые опираются детекторы. Авторы показывают, что в таких случаях цифровые сигналы внутри сети ослабевают и становятся нестабильными, из‑за чего система хуже понимает, что видит. Во‑вторых, многие современные видеометоды пытаются улучшить решения, объединяя информацию из нескольких соседних кадров. Это хорошо работает, если объекты едва смещаются между кадрами, но в быстром спорте они могут прыгать настолько далеко, что их позиции больше не выравниваются — тогда добавление кадров вводит шум и снижает точность.

Система, которая адаптируется к движению

Исследователи предлагают MoSA-Det — фреймворк, который меняет способ обработки каждой области изображения в зависимости от скорости её движения. Вместо того, чтобы одинаково относиться к каждому пикселю, система сначала оценивает «состояние» движения для каждой точки, группируя их как статичные, медленные или быстрые. Это делается путём сравнения признаков между последовательными кадрами и анализа силы их соответствия в соседних областях. Эта карта движения затем управляет двумя ключевыми модулями: одним, который повышает чёткость того, что видно в одном кадре, и другим, который решает, насколько доверять информации из других кадров во времени.

Очистка размытых игроков и мячей

Первый модуль, называемый Motion-Aware Adaptive Feature Module, борется с проблемой размытия внутри отдельных кадров. Он пропускает каждую область через несколько ветвей, которые анализируют окрестности разного размера — от очень локальных деталей до более широкой окружающей зоны. Карта движения подсказывает сети, как смешивать эти представления: для медленных или неподвижных областей больше полагаются на мелкие окрестности, чтобы сохранить тонкие детали, тогда как для быстрых областей опираются на более широкие взгляды, способные собрать рассеянную информацию. Для самых быстро движущихся объектов, например летящего мяча, модуль активирует специальную ветвь, которая учится «изгибать» сетку выборки, чтобы лучше следовать за искаженными формами и восстанавливать полезные сигналы даже при сильном размытии.

Figure 2. Как умный детектор по‑разному обрабатывает медленное и быстрое движение во времени, чтобы избежать размытия и несоответствий в спортивных видео.
Figure 2. Как умный детектор по‑разному обрабатывает медленное и быстрое движение во времени, чтобы избежать размытия и несоответствий в спортивных видео.

Использовать время только тогда, когда это полезно

Второй модуль, State-Guided Temporal Aggregation Module, решает, как объединять информацию между кадрами, не допуская вреда от несоответствий. Он использует карту движения, чтобы регулировать веса прошлых и будущих кадров для каждой точки. В статичных областях он смешивает несколько кадров довольно равномерно — это сглаживает шум и делает детекции стабильнее. В быстро движущихся областях вес сосредоточен на текущем кадре, а старые кадры прежде выравниваются с помощью обученных сдвигов перед их смешением, и даже тогда смешивание происходит осторожно. Небольшая дополнительная ветвь также корректирует финальные ограничивающие рамки, чтобы компенсировать сдвиг очевидного центра объекта из‑за размытия.

Что эти результаты значат для спортивных технологий

Протестированная на двух больших датасетах спортивных видео для футбола, баскетбола и волейбола, MoSA-Det последовательно превосходит сильные существующие методы. Она точнее обнаруживает игроков и мяч, особенно в переполненных сценах, при сильном движении и на более строгих порогах точности, требующих очень аккуратных контуров. Важно, что при этом система остается достаточно быстрой для трансляций в реальном времени. Для неспециалиста главная мысль такова: эта система учит компьютеры по‑разному обращать внимание на медленное и быстрое движение вместо подхода «один размер всем», что приводит к чище отслеживанию и более надежной графике в условиях высокой скорости игры.

Цитирование: Yang, L., Sun, W. & Ren, J. MoSA-Det: motion state adaptive object detection for sports videos. Sci Rep 16, 15969 (2026). https://doi.org/10.1038/s41598-026-43231-2

Ключевые слова: обнаружение в спортивных видео, отслеживание объектов, размытие при движении, компьютерное зрение, глубокое обучение