Clear Sky Science · fr
EchoNet++ : un jeu de données audio multilingue de commentaires de matchs de football
Pourquoi le son du football compte
Quiconque a regardé un grand match sait que le rugissement de la foule et l’intonation du commentateur font partie intégrante du drame, autant que les buts eux-mêmes. Pourtant, presque toute la technologie sportive moderne se concentre encore sur ce que voient les caméras, pas sur ce que captent les microphones. Cet article présente EchoNet et EchoNet++, un système et un jeu de données combinés qui transforment le chaos sonore des retransmissions professionnelles de football, venues de nombreux pays, en texte propre et interrogeable que les ordinateurs peuvent analyser. Cela permet d’étudier les tactiques, les émotions et la narration à travers les championnats et les langues à une échelle qu’aucune équipe humaine de traducteurs ne pourrait atteindre.
Du stade bruyant au signal nettoyé
Les matchs télévisés sont acoustiquement désordonnés. Les commentateurs parlent par-dessus les chants des supporters, la musique du stade et des explosions soudaines d’ovations. Les outils précédents injectaient principalement ce bruit brut dans des logiciels de reconnaissance vocale, qui peinaient avec les voix chevauchantes, les changements de langue et la mauvaise qualité audio. EchoNet aborde le problème comme une chaîne d’ingénierie plutôt que comme un modèle unique ingénieux. Elle commence par extraire la piste audio des vidéos de match complet et la convertir dans un format standard et de haute qualité. Le système passe ensuite dans le domaine fréquentiel, en se concentrant sur la plage où se situe la parole humaine tout en atténuant les basses grondantes et les artéfacts stridents. Un outil d’apprentissage profond appelé Demucs sépare davantage les sons d’allure vocale du reste, laissant une piste bien plus claire pour les étapes ultérieures.

Apprendre aux machines à distinguer voix et bruit
Une fois le son nettoyé, EchoNet doit décider quand quelqu’un parle réellement et si cette voix appartient à un commentateur ou à la foule. Pour cela, les auteurs utilisent un détecteur d’activité vocale neuronal qui balaye l’audio en courtes fenêtres et étiquette chaque instant comme parole ou non-parole. Les segments de parole détectés sont ensuite examinés de plus près. Les segments présentant le rythme et la structure régulière du langage parlé sont étiquetés comme commentaires, tandis que ceux qui ressemblent à des bouffées d’énergie chaotique sont étiquetés comme spectateurs. Cette séparation est importante : les phrases du commentateur portent un sens tactique et narratif, tandis que les réactions de la foule signalent principalement des pics émotionnels comme les buts ou les occasions manquées. En séparant ces sources, le système peut les traiter différemment dans les analyses ultérieures.
Transformer de nombreuses langues en une seule histoire
EchoNet envoie chaque segment de commentaire dans plusieurs variantes du modèle de reconnaissance vocale automatique Whisper, incluant des versions standard et optimisées pour la vitesse. Ces modèles sont entraînés sur des centaines de milliers d’heures d’audio multilingue, ce qui les rend bien adaptés aux grandes ligues européennes où les diffuseurs alternent entre anglais, allemand, espagnol, italien, français et d’autres langues. Le système enregistre le minutage de chaque segment, sa langue et sa transcription dans des fichiers JSON structurés liés aux mi-temps du match. Pour les extraits non anglais, EchoNet effectue d’abord la transcription dans la langue d’origine puis envoie le texte à un moteur de traduction pour obtenir des versions anglaises. Cette conception en deux étapes sépare les erreurs de transcription et de traduction, ce qui aide les chercheurs à déboguer les échecs et à comparer les comportements spécifiques à chaque langue.
Mesurer l’efficacité du dispositif
Parce qu’une chaîne n’est aussi solide que son maillon le plus faible, les auteurs évaluent EchoNet sous plusieurs angles. Ils introduisent un nouveau score « Report Accuracy » qui convertit les taux d’erreur de mots traditionnels en un pourcentage plus intuitif de contenu pratiquement correct. Sur trois jeux de données — y compris leur nouvelle collection EchoNet++ de 20 matchs complets — le prétraitement avec EchoNet réduit systématiquement les erreurs de transcription et augmente le Report Accuracy de plusieurs points pour chaque modèle Whisper testé. Les mesures de qualité du signal, qui estiment dans quelle mesure la parole serait compréhensible pour un auditeur humain, s’améliorent également nettement après filtrage, débruitage et normalisation. Des études d’ablation, où des composants individuels tels que le filtre passe-bande ou le détecteur de voix sont retirés, montrent que chaque étape contribue de manière significative à la clarté et à la justesse.

Ce que cela signifie pour les fans et les analystes
Concrètement, EchoNet et EchoNet++ fournissent un moyen fiable de transformer des heures de commentaires de match bruyants et multilingues en texte propre, aligné dans le temps, et en indicateurs de foule. Sur cette base, les développeurs peuvent détecter automatiquement les événements clés à partir du ton et des mots du commentateur, associer ces moments aux pics de réaction du public, et créer des résumés détaillés ou des montages sans journalisation manuelle. Surtout, le jeu de données et le code sont publiés pour un usage de recherche, offrant à la communauté une plateforme partagée et reproductible pour étudier le football par le son. Pour les fans et les analystes, ce travail pousse la couverture sportive vers un avenir où la bande-son du match devient aussi interrogeable et analysable que la vidéo elle-même.
Citation: Majeed, F., Nazir, M., Agus, M. et al. EchoNet++: A multilingual soccer match audio commentary dataset. Sci Rep 16, 8884 (2026). https://doi.org/10.1038/s41598-026-39884-8
Mots-clés: analytique du football, audio sportif, reconnaissance vocale, commentaires multilingues, analyse de diffusion