Clear Sky Science · fr

Un réseau convolutionnel spatiotemporel multimodal avec mécanisme d’attention pour la reconnaissance du comportement anxieux des athlètes

· Retour à l’index

Pourquoi les athlètes anxieux comptent

Quiconque a déjà bloqué sur une question cruciale d’examen ou manqué un tir facile en compétition sait à quel point le stress peut saboter la performance. Pour les sportifs compétitifs, ce problème est amplifié : l’anxiété peut coûter des médailles, des bourses et des carrières. Pourtant, la plupart des méthodes pour suivre l’anxiété d’un athlète reposent encore sur des questionnaires postérieurs et l’intuition d’un entraîneur. Cette étude présente un système objectif et en temps réel qui observe le corps et le visage des athlètes, capte leur physiologie et estime automatiquement leur niveau d’anxiété pendant la compétition.

Figure 1
Figure 1.

Voir les signes invisibles du stress

Les chercheurs partent d’une idée simple : l’anxiété se manifeste de multiples façons simultanément. Quand les athlètes s’inquiètent, leur rythme cardiaque change, leurs paumes transpirent, leur posture se raidit et de minuscules mouvements faciaux trahissent leur tension. Plutôt que de se concentrer sur un seul de ces indices, l’équipe en combine plusieurs à la fois. Ils recueillent des données cardiaques et de conductance cutanée via capteurs portables, des vidéos haute définition du visage et des mouvements du corps, ainsi que des questionnaires psychologiques standardisés remplis avant et après de véritables compétitions universitaires. Au total, 68 athlètes de quatre sports fournissent plus de deux mille courtes séquences, chacune étiquetée comme anxieuse ou calme sur la base d’un questionnaire d’anxiété reconnu.

Apprendre à un coach numérique à lire le jeu

Pour convertir ce flux riche de signaux en un score d’anxiété, les auteurs conçoivent un « coach » en apprentissage profond spécialisé dans les motifs qui se développent dans le temps. Leur modèle utilise un réseau convolutionnel spatiotemporel — essentiellement une série de filtres qui glissent non seulement dans l’espace (pixels, points du corps, canaux de capteurs) mais aussi dans le temps. Cela permet au système de repérer à la fois des flambées rapides de tension et des accumulations plus progressives de stress au cours d’un intervalle de 30 secondes de jeu. De façon cruciale, le réseau traite chaque type de données — physiologie, expression faciale et mouvement — le long d’un chemin dédié avant de les combiner, de sorte que les points forts d’un canal puissent compenser les faiblesses d’un autre, par exemple un visage partiellement masqué ou un bruit transitoire des capteurs.

Permettre au modèle de se concentrer là où cela compte

Parce que chaque instant ou signal n’est pas également informatif, les chercheurs ajoutent un mécanisme d’« attention ». Cette partie du modèle apprend à attribuer plus d’importance aux images et aux signaux qui distinguent le mieux l’anxiété du calme. Par exemple, une pointe de conductance cutanée associée à un bref serrage de la mâchoire et à un mouvement agité de la jambe peut recevoir plus de poids qu’une période de respiration régulière et de posture neutre. Le module d’attention apprend aussi à quel point faire confiance à chaque flux de données en temps réel, en déplaçant l’accent si, par exemple, les données physiologiques sont claires mais que la vidéo est bruitée. En adaptant ainsi son focus, le système devient plus robuste aux conditions réelles et meilleur pour repérer des signes subtils et précoces de nervosité.

Figure 2
Figure 2.

Quelle précision et quelle praticité ?

Testé face à plusieurs méthodes existantes — y compris des algorithmes classiques d’apprentissage machine, des réseaux vidéo standards et des modèles profonds de type Transformer — le nouveau système arrive en tête. Il classe correctement les niveaux d’anxiété environ 95 % du temps et obtient un bon équilibre entre précision et rappel. Les auteurs évaluent systématiquement différentes longueurs de fenêtre temporelle et montrent qu’environ 30 secondes de données offrent le meilleur compromis entre disposer d’assez de contexte pour observer un épisode d’anxiété et garder un délai suffisamment court pour un retour en temps réel. Même lorsqu’un type de donnée manque — par exemple si seuls les dispositifs portables sont actifs — le système continue de bien fonctionner, ce qui suggère qu’il peut gérer des conditions de terrain imparfaites.

Ce que cela signifie pour les athlètes et les entraîneurs

Concrètement, l’étude montre qu’un ordinateur peut apprendre à détecter l’anxiété des athlètes presque en temps réel, en utilisant un mélange de signaux corporels et de comportements, et le faire plus fiablement que les outils antérieurs. Plutôt que de se fier uniquement à ce que l’athlète déclare après coup, les entraîneurs et psychologues du sport pourraient recevoir des estimations continues et objectives de la charge mentale pendant l’entraînement et la compétition. Cela pourrait permettre des exercices de respiration ciblés, des changements de composition ou des pauses avant que l’anxiété ne se transforme en effondrement de la performance. Bien que le système dépende encore de plusieurs capteurs et d’un matériel puissant, et doive être déployé avec de solides garanties de confidentialité, il ouvre la voie à un avenir où la gestion de l’aspect mental du sport est aussi mesurable et guidée par les données que le suivi de la vitesse ou de la fréquence cardiaque.

Citation: Yang, F., Gong, F. A multimodal spatiotemporal convolutional network with attention mechanism for athlete anxiety behavior recognition. Sci Rep 16, 5237 (2026). https://doi.org/10.1038/s41598-026-36023-1

Mots-clés: anxiété chez les athlètes, psychologie du sport, capteurs portables, apprentissage profond multimodal, surveillance émotionnelle en temps réel