Clear Sky Science · fr

Évaluation de la qualité des actions d’athlètes basée sur le découplage des scores d’un réseau neuronal transféré dans des scénarios sportifs complexes

· Retour à l’index

Pourquoi un jugement sportif plus intelligent compte

Des plongeons olympiques aux battles de breakdance, de nombreux sports reposent sur des juges humains qui convertissent des mouvements complexes en un score unique. Mais les performances longues sont inégales : certains instants sont spectaculaires, d’autres fragiles ou simplement de la garniture. Cette étude explore comment l’intelligence artificielle peut analyser des vidéos entières de performances complexes, identifier les moments vraiment importants et produire des scores plus cohérents et fins, susceptibles d’appuyer les juges, entraîneurs, médecins et apprenants du quotidien.

Regarder le spectacle dans son ensemble, pas seulement les moments forts

Les systèmes informatiques traditionnels qui évaluent la performance sportive traitent souvent une vidéo complète comme si chaque seconde avait la même importance. Cette hypothèse ne tient pas lors d’événements réels. En breakdance, par exemple, des pas initiaux en rythme comptent moins que des figures difficiles au sol, des freezes ou des power spins survenant plus tard. Les méthodes existantes homogénéisent fréquemment le tout, ce qui masque à la fois les mouvements brillants et les erreurs critiques. Les auteurs formulent cela comme un problème général dans les vidéos longues de compétences : la qualité varie dans le temps, et des preuves positives et négatives peuvent coexister dans une même performance. Leur objectif est de construire un système qui sépare les moments clés du mouvement de fond, facilitant la comparaison de la qualité réelle entre deux interprètes.

Figure 1. L’IA sépare le mouvement et la posture dans de longues vidéos sportives et de compétences pour fournir un score global de qualité.
Figure 1. L’IA sépare le mouvement et la posture dans de longues vidéos sportives et de compétences pour fournir un score global de qualité.

Deux façons d’observer une même performance

Le modèle proposé examine chaque vidéo à travers deux lentilles distinctes. Un flux « dynamique » se concentre sur le mouvement au fil du temps à l’aide de courts extraits, capturant le rythme, le flux et la continuité. L’autre flux « statique » analyse des images individuelles, repérant la posture, le contrôle du corps et de petites erreurs de forme qui peuvent n’apparaître qu’un instant. Crucialement, ces flux ne sont pas mélangés précocement. Chacun apprend d’abord sa propre vision de la performance, ce qui évite que de brèves fautes de posture soient noyées par de longues séquences fluides, ou inversement. Ce n’est qu’après que chaque flux a formé ses caractéristiques sensibles à la qualité qu’ils sont combinés pour estimer un score global.

Séparer les mouvements forts des mouvements faibles

Au cœur du système se trouve un module de « découplage des scores » qui sépare explicitement les segments vidéo ressemblant à des preuves fortes de compétence de ceux qui suggèrent une exécution plus faible ou défaillante. Inspiré des réseaux modernes basés sur l’attention, le modèle apprend deux « prototypes » internes : l’un qui recherche les moments de haute qualité et l’autre qui se focalise sur les moments de basse qualité. Au fur et à mesure du traitement de la vidéo, chaque prototype attribue des poids différents aux segments, produisant deux résumés complémentaires : l’un construit à partir des extraits les plus réussis, et l’autre à partir des pires ou des moins pertinents. Une moyenne simple sur le temps est aussi conservée comme référence neutre. Des règles d’entraînement spécifiques poussent les vues haute et basse qualité à diverger de manière utile et à se concentrer sur des parties différentes de la vidéo, plutôt qu’à converger vers les mêmes images évidentes.

Figure 2. L’IA met en évidence les meilleurs et les pires moments d’une longue performance avant de les combiner en un seul score de qualité.
Figure 2. L’IA met en évidence les meilleurs et les pires moments d’une longue performance avant de les combiner en un seul score de qualité.

Apprendre à classer les performances en regardant des paires

Plutôt que de s’appuyer sur des scores numériques précis fournis par des experts humains, le système est entraîné principalement sur des comparaisons par paires : donné deux vidéos, quel interprète a montré la meilleure habileté globalement ? Pour chaque paire, le modèle prédit des scores pour ses branches haute qualité, basse qualité et moyenne, et est pénalisé s’il se trompe dans l’ordre ou si les branches séparées ne sont pas plus discriminantes que la moyenne simple. Des termes d’entraînement supplémentaires encouragent les vues « bonnes » et « mauvaises » à mettre l’accent sur différents segments temporels. Une fois l’entraînement terminé, le système peut analyser une nouvelle vidéo unique et produire un score de qualité stable, sans avoir besoin d’une vidéo de référence en parallèle.

Des battles de breakdance à la chirurgie et aux compétences du quotidien

Pour évaluer leur approche, les auteurs ont constitué un nouveau jeu de données de battles de breakdance de niveau mondial et ont également testé la méthode sur deux collections existantes de longues vidéos de compétences : tâches du quotidien comme dessiner, cuisiner et faire un nœud de cravate, ainsi que des activités chirurgicales et de motricité fine. Dans ces contextes variés, leur modèle égalise ou dépasse généralement la précision des méthodes de pointe pour décider laquelle de deux vidéos montre le meilleur niveau de compétence. Les visualisations de ses cartes d’attention internes montrent que les branches haute qualité s’éclairent autour de mouvements bien contrôlés et techniquement exigeants, tandis que les branches basse qualité mettent en avant des transitions maladroites ou des actions incomplètes. Pour un lecteur non spécialiste, l’essentiel est que ce système apprend aux ordinateurs non seulement à reconnaître quelle action se produit, mais à juger de sa qualité en séparant soigneusement les meilleures et les pires parties d’une performance avant de les combiner en un score final interprétable.

Citation: Gao, L., Ma, Y., Bi, S. et al. Athlete action quality assessment based on transfer neural network quality score decoupling in complex sports scenarios. Sci Rep 16, 15795 (2026). https://doi.org/10.1038/s41598-026-43987-7

Mots-clés: évaluation de la qualité d’action, analyse de vidéos sportives, breakdance, modèles basés sur l’attention, évaluation des compétences