Clear Sky Science · fr
Apprentissage auto-supervisé conscient de la sémantique via une régression progressive des sous-actions pour l’évaluation de la qualité d’une action
Voir la performance sous un nouvel angle
Lorsque nous regardons des plongeurs olympiques ou d’autres athlètes d’élite, nous percevons instinctivement qui a mieux performé, mais traduire cette intuition en chiffres objectifs est difficile. Les systèmes automatisés actuels peuvent attribuer un « score » global à une action, mais expliquent rarement pourquoi un plongeon est bon ou mauvais, ni quelle partie doit être améliorée. Cet article présente une nouvelle façon pour les ordinateurs d’observer des actions complexes en vidéo, de les découper en éléments compréhensibles et de noter chaque élément séparément — offrant un retour proche de ce qu’un entraîneur humain pourrait donner.

Découper un mouvement complexe en morceaux gérables
Beaucoup d’outils actuels d’évaluation traitent un plongeon ou un mouvement complet comme un bloc unique, ne produisant qu’un score global. Cela masque des détails cruciaux : un plongeur peut effectuer un départ parfait mais une entrée dans l’eau médiocre, et un seul nombre ne peut pas le révéler. Les auteurs s’attaquent à ce problème en apprenant à l’ordinateur à diviser chaque vidéo en étapes significatives, ou sous-actions, telles que départ, impulsion, phase de vol et entrée. Fait important, ce découpage est réalisé automatiquement, sans marquage humain indiquant où une étape se termine et la suivante commence. Une méthode de clustering non supervisée regroupe des images successives qui « se comportent » de manière similaire dans le temps, offrant au système un scénario approximatif mais fiable de la performance.
Laisser le système s’enseigner ce qui compte
Une fois la vidéo découpée en étapes, le système doit comprendre à quoi ressemble une étape bien ou mal exécutée. Au lieu de s’appuyer sur des annotations denses et manuelles, les auteurs utilisent l’apprentissage auto-supervisé : le modèle voit de nombreuses variantes de la même sous-action où des segments d’images sont délibérément supprimés ou « masqués ». Le système doit néanmoins produire des descriptions internes similaires pour les clips complets et pour les clips partiellement masqués. En apprenant à ignorer ces lacunes artificielles, il devient robuste aux problèmes réels comme de brèves occultations, des images manquantes ou des frontières d’étape légèrement imprécises, et il apprend à se concentrer sur les motifs essentiels de mouvement et de posture qui définissent la qualité.

D’un score global à de nombreux sous-scores utiles
Les jeux de données réels contiennent généralement un seul score global par plongeon, pas de notes distinctes pour chaque étape. Pour contourner cela, les auteurs introduisent une stratégie progressive de « pseudo-sous-scores ». D’abord, ils fusionnent le score global avec les caractéristiques nouvellement apprises pour chaque sous-action et entraînent de petits réseaux à prédire un score provisoire pour chaque étape. Ensuite, ils affinent ces estimations en laissant l’information circuler le long de la séquence : les caractéristiques de chaque étape sont mises à jour en utilisant les scores des étapes précédentes, capturant comment une petite erreur au départ peut se répercuter pendant la phase de vol et l’entrée. Dans une seconde variante, chaque étape a accès à tous les scores des étapes antérieures, modélisant les causes et effets à longue portée tout au long de l’action. Enfin, un réseau de régression compact combine les scores d’étape raffinés en une prédiction globale, désormais sans avoir besoin de voir le score de référence à son entrée.
Tests sur de vraies compétitions de plongeon
Les chercheurs ont évalué leur cadre sur deux jeux de données exigeants de plongeon enregistrés lors de grandes compétitions internationales. Ces collections fournissent des scores globaux des juges humains, et dans certains cas des timings approximatifs des étapes, mais pas d’étiquettes de qualité au niveau des étapes. La nouvelle méthode a atteint un état de l’art en corrélation de rang, ce qui signifie que son classement des athlètes correspond étroitement à celui des juges experts, tout en réduisant les erreurs numériques dans les scores prédits. Des tests d’« ablation » soigneux ont montré que les deux idées principales — le raffinement des caractéristiques par auto-supervision et la modélisation progressive par pseudo-sous-scores — apportent des améliorations substantielles. Notamment, l’utilisation de frontières d’étape automatiques a donné des performances presque comparables à celles obtenues avec des annotations humaines laborieuses, indiquant que le système est résilient à une segmentation imparfaite.
Transformer des chiffres en conseils d’entraînement pertinents
Au-delà de la précision, cette approche rend la notation automatisée plus interprétable. En attribuant un score séparé à chaque étape d’un plongeon, le système peut souligner, par exemple, que deux plongeurs ont des départs et des phases de vol similaires mais divergent fortement à l’entrée, où l’un provoque une grosse éclaboussure. L’analyse de nombreux échantillons confirme que ces scores d’étape suivent les mêmes priorités que les juges humains, l’entrée portant souvent le plus de poids. Concrètement, la méthode peut indiquer aux athlètes et aux entraîneurs la partie exacte d’une performance à améliorer, tout en s’appuyant sur des données d’entraînement relativement simples. Bien que démontrée sur le plongeon, la notion est suffisamment flexible pour s’étendre à d’autres tâches en plusieurs étapes — des procédures chirurgicales aux exercices de rééducation — où comprendre la contribution de chaque segment à la qualité globale est essentiel.
Citation: Mazruei, M., Fazl-Ersi, E., Vahedian, A. et al. Semantic-aware self-supervised learning using progressive sub-action regression for action quality assessment. Sci Rep 16, 6670 (2026). https://doi.org/10.1038/s41598-026-36668-y
Mots-clés: évaluation de la qualité d’une action, analyse de vidéos sportives, apprentissage auto-supervisé, notation du mouvement humain, apprentissage profond pour l’entraînement