Clear Sky Science · fr

MoSA-Det : détection d’objets adaptative à l’état de mouvement pour vidéos sportives

2026-04-03 · Retour à l’index

Un regard plus net sur le terrain

Lorsque vous regardez un match en direct à la télévision, il semble naturel que les caméras et les graphismes suivent chaque joueur et la balle. En coulisses, toutefois, les systèmes informatiques peinent particulièrement face à l’action rapide. Cet article présente une nouvelle manière pour les algorithmes de « regarder » le sport, capable de suivre les mouvements rapides et d’offrir un suivi plus propre et plus fiable pour des applications comme les incrustations à l’antenne, l’analyse tactique et l’entraînement.

Figure 1. Comment l’adaptation à la vitesse de mouvement aide les ordinateurs à suivre plus clairement les joueurs et la balle dans les vidéos sportives.

Pourquoi l’action rapide embrouille les ordinateurs

Les vidéos sportives regorgent de sprints rapides, de longues passes et de mouvements de caméra amples. Pour les systèmes de vision par ordinateur, cela crée deux problèmes majeurs. D’une part, lorsque les joueurs ou la balle se déplacent vite, ils deviennent flous, perdant les contours nets et les textures sur lesquels les détecteurs s’appuient. Les auteurs montrent que dans ces cas les signaux numériques à l’intérieur d’un réseau s’affaiblissent et deviennent instables, si bien que le système est moins certain de ce qu’il voit. D’autre part, de nombreuses méthodes vidéo modernes cherchent à améliorer les décisions en mélangeant l’information de plusieurs images voisines. Cela fonctionne bien si les objets bougent peu entre les images, mais dans les sports rapides ils peuvent sauter si loin que leurs positions ne s’alignent plus : ajouter des images finit alors par injecter du bruit et réduire la précision.

Un système qui s’adapte au mouvement

Les chercheurs proposent MoSA-Det, un cadre qui modifie la façon de traiter chaque région d’une image en fonction de sa vitesse de déplacement. Plutôt que de traiter chaque pixel de la même manière, le système estime d’abord un « état » de mouvement pour chaque emplacement, en les regroupant en statique, lent ou rapide. Il le fait en comparant des caractéristiques entre images consécutives et en analysant la force de leur correspondance avec les zones voisines. Cette carte de mouvement guide ensuite deux modules clés : l’un se concentre sur l’amélioration de la clarté de ce qui est vu dans une seule image, l’autre décide combien faire confiance à l’information provenant d’autres images au fil du temps.

Restaurer les joueurs et les balles flous

Le premier module, appelé Module de Caractéristiques Adaptatives Sensible au Mouvement, s’attaque au problème du flou à l’intérieur d’images individuelles. Il fait passer chaque région par plusieurs branches qui examinent des voisinages de tailles différentes, des détails très locaux à une zone environnante plus large. La carte de mouvement indique au réseau comment mélanger ces vues : les régions lentes ou immobiles s’appuient davantage sur de petits voisinages pour préserver les détails fins, tandis que les régions rapides privilégient des vues plus larges capables de rassembler une information dispersée. Pour les zones les plus rapides, comme une balle en vol, le module active une branche spéciale qui apprend à « courber » sa grille d’échantillonnage pour mieux suivre les formes déformées, aidant à récupérer des signaux utiles même sous un flou intense.

Figure 2. Comment un détecteur intelligent traite différemment les mouvements lents et rapides au fil du temps pour éviter le flou et le désalignement dans les vidéos sportives.

Employer le temps seulement quand il aide

Le second module, le Module d’Agrégation Temporelle Guidée par l’État, décide comment combiner l’information à travers les images sans que le désalignement n’en fasse une source d’erreur. Il utilise la carte de mouvement pour ajuster les poids accordés aux images passées et futures pour chaque emplacement. Dans les régions statiques, il mélange plusieurs images de manière assez équilibrée, ce qui lisse le bruit et stabilise les détections. Dans les régions en mouvement rapide, il concentre le poids sur l’image courante et utilise des déplacements appris pour aligner approximativement les images plus anciennes avant de les intégrer, et même alors les mélange avec prudence. Une petite branche supplémentaire ajuste aussi légèrement les boîtes englobantes finales pour corriger la façon dont le flou peut décaler le centre apparent d’un objet en mouvement.

Ce que les résultats signifient pour la technologie sportive

Testé sur deux grands ensembles de vidéos sportives couvrant le football, le basket-ball et le volley-ball, MoSA-Det dépasse systématiquement des méthodes performantes existantes. Il détecte les joueurs et la balle avec plus de précision, notamment dans les scènes encombrées, lors de mouvements intenses et à des seuils de précision plus stricts qui exigent des contours très précis. Fait important, il conserve suffisamment de rapidité pour une diffusion en temps réel. Pour un non-spécialiste, le message principal est que ce système apprend aux ordinateurs à prêter attention différemment aux mouvements lents et rapides au lieu d’appliquer une solution universelle, ce qui conduit à un suivi plus net et à des graphismes plus fiables lors d’actions à grande vitesse.

Citation: Yang, L., Sun, W. & Ren, J. MoSA-Det: motion state adaptive object detection for sports videos. Sci Rep 16, 15969 (2026). https://doi.org/10.1038/s41598-026-43231-2

Mots-clés: détection de vidéos sportives, suivi d’objets, flou de mouvement, vision par ordinateur, apprentissage profond