Clear Sky Science · fr

Application du LSTM-CNN à la reconnaissance des gestes de ski sous la technologie de l’intelligence artificielle

· Retour à l’index

Un entraînement plus intelligent sur les pistes

Les skieurs, entraîneurs et spectateurs se tournent de plus en plus vers la vidéo pour comprendre ce qui se passe dans une courbe ou un saut qui ne dure qu’un instant. Dans la réalité, cependant, les gerbes de neige, les arbres, la lumière changeante et les pistes encombrées compliquent la tâche des ordinateurs pour reconnaître de manière fiable les actions d’un skieur. Cet article présente un nouveau système d’intelligence artificielle capable de lire automatiquement la technique de ski à partir de vidéos ordinaires avec une grande précision, même en conditions extérieures difficiles. Une telle technologie pourrait un jour alimenter des outils de coaching en temps réel, un entraînement plus sûr et des analyses de performance plus approfondies pour les sports d’hiver.

Pourquoi apprendre aux ordinateurs à voir le ski est difficile

Le ski est un sport difficile à analyser car les mouvements sont rapides, tridimensionnels et souvent partiellement masqués par des vêtements volumineux ou par le corps du skieur. Parallèlement, les scènes extérieures sont pleines de distractions : arbres, monticules de neige, reflets intenses et météo variable. Les systèmes vidéo antérieurs se sont soit trop appuyés sur l’apparence statique d’images isolées, soit n’ont pas correctement suivi le déroulement des mouvements dans le temps. En conséquence, ils avaient tendance à confondre des actions similaires, à peiner en cas de faible visibilité et à manquer de robustesse face à de nouveaux athlètes ou à des conditions de piste inédites.

Figure 1
Figure 1.

Une vision double du mouvement de ski

Les auteurs conçoivent un modèle qui observe les vidéos de ski de deux manières complémentaires simultanément. Un « œil » analyse les images couleur régulières, captant l’apparence du skieur et de son environnement. L’autre « œil » se concentre sur le mouvement en suivant le déplacement des pixels d’une image à la suivante, une technique connue sous le nom de flux optique. À partir de ce champ de mouvement, le système construit une carte de saillance qui met en évidence les régions réellement actives — les skis, les jambes et le torse — tout en atténuant l’arrière-plan statique comme les arbres et les congères. Les deux flux passent ensuite par un réseau de convolution 3D qui apprend des motifs spatiaux et temporels courts, distillant chaque segment vidéo en signatures compactes d’apparence et de mouvement.

Mélanger ce qu’il voit et comment ça bouge

Plutôt que d’empiler ou de moyenniser simplement les deux flux d’information, le modèle apprend combien de poids attribuer à chacun pour chaque séquence qu’il analyse. Pour certaines manœuvres, comme un virage en béquille où les skis forment une forme distinctive, les indices d’apparence comptent davantage. Pour des virages parallèles fluides, le rythme et la direction du mouvement sont plus révélateurs. Un module de fusion apprenable ajuste automatiquement ces contributions, normalisant les deux jeux de caractéristiques et les combinant via des poids appris qui sommeillent toujours à un. Ce mélange adaptatif permet au système de se concentrer sur la preuve visuelle la plus informative pour l’action en cours, rendant la reconnaissance plus précise et plus fiable pour une grande diversité de styles de ski et de scènes.

Figure 2
Figure 2.

Lire l’histoire complète de chaque virage

Reconnaître une action en ski ne revient pas seulement à identifier une pose isolée ; il s’agit de la façon dont une séquence se déroule du début à la fin. Pour capter cela, les caractéristiques fusionnées sont injectées dans un réseau récurrent bidirectionnel qui regarde à la fois vers l’avant et vers l’arrière dans le temps. Plutôt que de ne se fier qu’aux images passées, le modèle utilise aussi des indices provenant des images à venir pour comprendre ce que fait le skieur. Cela l’aide à distinguer des actions qui peuvent sembler similaires sur un instantané mais qui diffèrent par le timing et la coordination. Des tests sur le jeu de données SkiTB — une grande collection de vidéos de ski en conditions réelles — montrent que le nouveau système surpasse plusieurs méthodes établies, atteignant environ 93 % de précision et de score F1. Il reste au-dessus de 85 % de précision même lorsqu’il est évalué dans des conditions météorologiques différentes, avec des athlètes inconnus et des vidéos contenant du bruit artificiel.

Ce que cela signifie pour les skieurs et la technologie sportive

En combinant une perception du mouvement ciblée, une fusion adaptative des indices visuels et une lecture temporelle du mouvement, le modèle proposé peut dire de manière fiable si un skieur tourne, freine ou saute, même dans des environnements encombrés et changeants. Pour les non-spécialistes, l’idée essentielle est que le système ne se contente pas de compter les images ; il apprend où regarder, ce qui importe le plus et comment se déroule un cycle d’action complet. Cette approche pourrait constituer l’épine dorsale d’assistants d’entraînement intelligents fournissant un retour objectif, aidant à prévenir les blessures en repérant des schémas à risque et soutenant des analyses de diffusion plus riches. Bien que les auteurs notent que les intempéries extrêmes et les figures aériennes très brèves restent des défis, leur cadre offre une base robuste pour de futurs outils de coaching intelligents en ski et, potentiellement, pour de nombreux autres sports de plein air.

Citation: Zhang, W., Xu, L. & Wang, L. Application of LSTM-CNN in skiing action recognition under artificial intelligence technology. Sci Rep 16, 11547 (2026). https://doi.org/10.1038/s41598-026-42324-2

Mots-clés: reconnaissance des gestes de ski, analyse vidéo sportive, apprentissage profond, flux optique, performance des athlètes