Clear Sky Science · ru

YOLC с динамическим разреженным вниманием для высокоскоростного обнаружения малых целей в носимых спортивных изображениях

· Назад к списку

Видеть спорт глазами игрока

Представьте, что вы наблюдаете подачу в теннисе или розыгрыш в настольном теннисе не со стадиона, а через камеру, прикреплённую к голове спортсмена. Мяч мелькает в поле зрения как крошечное размытие, но тренерам и аналитикам важно точно знать, куда он полетел, с какой скоростью и как реагировали игроки. В этой работе представлена новая система компьютерного зрения под названием YOLC, разработанная для обнаружения и отслеживания таких быстрых маленьких объектов в реальном времени на компактных энергоэффективных носимых устройствах.

Почему поймать крошечные и быстрые цели так сложно

Камеры, закреплённые на теле, стали привычным инструментом в спортивных тренировках, фиксируя видео от первого лица с матчей и упражнений. Но с такой перспективы ключевые объекты — волан, теннисный мяч или стартовая нога спринтера — часто занимают лишь считанные пиксели и быстро смещаются между кадрами. Существующие системы обнаружения либо слишком тяжеловесны для маломощных устройств, либо теряют цель, когда объект мал, размыто или удалён. Авторы показывают, что в реальной спортивной съёмке многие объекты меньше 32×32 пикселей и движутся настолько быстро между кадрами, что стандартные методы либо пропускают их, либо неоднократно теряют их идентичность, нарушая траектории и сводя на нет серьёзный анализ производительности.

Figure 1
Figure 1.

Лёгкий визуальный конвейер для носимых камер

Исследователи представляют YOLC (сокращение от «You Only Look Clusters»), полноценный конвейер обнаружения и отслеживания, адаптированный для edge‑оборудования вроде NVIDIA Jetson Nano. В его ядре — оптимизированный извлекатель признаков, построенный на основе эффективной семьи нейросетей MobileNet, перестроенной с упором на «дешёвые» операции, которые снижают затраты памяти и вычислений, сохраняя при этом достаточную детализацию для обнаружения мелких объектов. Кадры видео масштабируются до сбалансированного разрешения, и формируются три уровня карт признаков: один с акцентом на тонкие детали для малых целей, один для объектов среднего размера и один с более сильной высокоуровневой семантикой для крупных или удалённых предметов. Эти многомасштабные карты питают остальную часть системы, которая тщательно спроектирована, чтобы извлечь максимум информации из каждого вычисления.

Позволяя сети смотреть только туда, где важно

Ключевая инновация — механизм «динамического разреженного внимания», имитирующий то, как человек может бросить взгляд только на наиболее информативные части сцены. Вместо равной обработки каждого пикселя YOLC измеряет, насколько локально изменяется изображение — например на краях, в углах или по контуру движущегося мяча — и строит карту, где текстура наиболее выражена. Затем он оставляет примерно верхние 30 процентов таких областей с высоким откликом для дальнейшей обработки, эффективно отключая шумные фоновые зоны, такие как стены, трибуны или небо. Специальный приём при обучении позволяет модели оставаться полностью пригодной для обучения, несмотря на это жёсткое отсечение. Такой селективный фокус не только повышает точность, игнорируя отвлекающие факторы, но и значительно сокращает объём вычислений, что критично для батарейных носимых устройств.

Figure 2
Figure 2.

От резких признаков к стабильным траекториям

После выделения ключевых областей YOLC объединяет информацию между масштабами с помощью двунаправленной пирамиды признаков, которая передаёт сигналы как от грубых к детальным, так и от детальных к грубым слоям. Сила этих связей регулируется той же картой внимания, поэтому важные мелкие объекты усиливаются на каждом этапе. На финальном шаге обнаружения дополнительный модуль «координатного внимания» помогает системе лучше определять положение объектов в кадре, связывая сигналы по горизонтали и вертикали. Чтобы превратить покадровые обнаружения в плавные траектории во времени, метод добавляет лёгкий модуль оптического потока — инструмент для оценки движения пикселей между последовательными кадрами — и двухэтапную схему сопоставления: сначала парыются высоконадёжные детекции с существующими треками, затем с осторожностью переиспользуются боксы с низшей уверенностью, которые соответствуют ожидаемому движению. В совокупности эти компоненты уменьшают перескоки идентичности и пропуски, даже когда объекты пересекаются или коротко скрываются.

Результаты в реальных условиях

Команда протестировала YOLC на собственном спортивном наборе данных, включающем бадминтон, баскетбол, теннис, спринт и настольный теннис, все съёмки выполнены камерой, закреплённой на голове, в реальных тренировочных условиях. На этом сложном материале система работает со скоростью 53.5 кадров в секунду и содержит всего 1.78 миллиона параметров, что значительно меньше, чем у многих популярных детекторов. Она достигает метрики обнаружения (mAP@0.5) в 75.3 процента и показателя recall по малым объектам выше 80 процентов, превосходя несколько известных лёгких моделей. В бенчмарках по отслеживанию YOLC поддерживает более длинные и надёжные траектории и существенно сокращает число смен идентичности. Система также демонстрирует устойчивость к размытию движения и дрожанию камеры, примерно вдвое снижая число ложных тревог по сравнению с конкурирующими методами.

Что это значит для спорта и не только

Для тренеров, аналитиков и производителей оборудования послание очевидно: точное понимание быстрых спортивных действий в реальном времени не обязано зависеть от громоздких серверов или идеальной телевизионной съёмки. Тщательно выбирая, где и когда тратить вычислительные ресурсы, YOLC превращает шумные видеозаписи от первого лица в подробные записи о том, как малые быстрые объекты движутся и взаимодействуют со спортсменами. Это может обеспечить более содержательную обратную связь в тренировках, более безопасный мониторинг в видах спорта с высокой интенсивностью и, шире, более умные визуальные системы на любых компактных устройствах, которым нужно ясно видеть в условиях жёстких аппаратных ограничений.

Цитирование: Chen, H., Song, Y., Liu, W. et al. YOLC with dynamic sparse attention for high-speed small target detection in wearable sports images. Sci Rep 16, 6858 (2026). https://doi.org/10.1038/s41598-026-38079-5

Ключевые слова: зрение в носимых спортивных устройствах, обнаружение мелких объектов, отслеживание в реальном времени, edge AI, механизмы внимания