Clear Sky Science · pl
EchoNet++: wielojęzyczny zbiór danych z audio-komentarzami meczów piłkarskich
Dlaczego dźwięki z meczów piłki nożnej mają znaczenie
Każdy, kto oglądał duże spotkanie, wie, że ryk tłumu i wzloty oraz upadki głosu komentatora są równie istotną częścią dramatu jak same bramki. Mimo to niemal cała nowoczesna technologia sportowa nadal skupia się na tym, co widzą kamery, a nie na tym, co słyszą mikrofony. W artykule przedstawiono EchoNet i EchoNet++, system i zbiór danych, które zamieniają chaotyczne nagrania z profesjonalnych transmisji piłkarskich z wielu krajów w czysty, przeszukiwalny tekst, który komputery mogą analizować. Umożliwia to badanie taktyki, emocji i narracji w różnych ligach i językach na skali, której żaden zespół tłumaczy nie byłby w stanie osiągnąć.
Z hałaśliwego stadionu do czystego sygnału
Transmisje telewizyjne są akustycznie złożone. Komentatorzy mówią ponad skandującymi kibicami, muzyką stadionową i nagłymi wybuchami okrzyków. Poprzednie narzędzia często kierowały takie surowe nagrania bezpośrednio do oprogramowania rozpoznawania mowy, które miało trudności z nakładającymi się głosami, zmieniającymi się językami i słabą jakością dźwięku. EchoNet podchodzi do problemu jak do procesu inżynieryjnego, a nie jednego sprytnego modelu. Zaczyna od wydzielenia ścieżki dźwiękowej z pełnych nagrań meczów i konwersji do standardowego, wysokiej jakości formatu. System następnie przechodzi do dziedziny częstotliwości, koncentrując się na zakresie, w którym mieści się mowa ludzka, jednocześnie tłumiąc dudniące basy i ostre artefakty. Narzędzie głębokiego uczenia o nazwie Demucs dodatkowo separuje dźwięki przypominające mowę od reszty, pozostawiając znacznie czyściejszą ścieżkę do dalszej analizy.

Nauka odróżniania głosów od hałasu
Gdy dźwięk zostanie oczyszczony, EchoNet musi zdecydować, kiedy ktoś faktycznie mówi i czy dany głos należy do komentatora czy do tłumu. W tym celu autorzy używają neuronowego detektora aktywności głosu, który skanuje audio w krótkich oknach i oznacza każdy moment jako mowa lub brak mowy. Wykryte fragmenty mowy są następnie analizowane dokładniej. Segmenty wykazujące stały rytm i strukturę języka mówionego są oznaczane jako komentarz, podczas gdy te przypominające nagłe wybuchy chaotycznej energii — jako reakcje widzów. To rozróżnienie ma znaczenie: zdania komentatorów niosą znaczenie taktyczne i narracyjne, podczas gdy reakcje tłumu sygnalizują głównie szczyty emocjonalne, takie jak gole czy sytuacje bramkowe. Poprzez rozdzielenie tych źródeł system może traktować je odrębnie w dalszych analizach.
Przekształcanie wielu języków w jedną opowieść
EchoNet przesyła każdy segment komentarza do kilku wariantów modelu automatycznego rozpoznawania mowy Whisper, w tym standardowych i zoptymalizowanych pod kątem szybkości. Modele te były trenowane na setkach tysięcy godzin wielojęzycznego audio, co czyni je odpowiednimi dla największych lig europejskich, gdzie nadawcy przełączają się między angielskim, niemieckim, hiszpańskim, włoskim, francuskim i innymi językami. System zapisuje czas trwania segmentu, język i transkrypt w ustrukturyzowanych plikach JSON przypisanych do połówek meczu. Dla nagrań w językach innych niż angielski EchoNet najpierw dokonuje transkrypcji w oryginalnym języku, a następnie wysyła tekst do silnika tłumaczeniowego, aby uzyskać wersję angielską. Ten dwustopniowy projekt oddziela błędy transkrypcji od błędów tłumaczenia, co ułatwia badaczom debugowanie niepowodzeń i porównywanie zachowania modeli w poszczególnych językach.
Mierzenie skuteczności
Ponieważ potok jest tak silny, jak jego najsłabszy etap, autorzy oceniają EchoNet z kilku perspektyw. Wprowadzają nowy wskaźnik „Report Accuracy”, który przekształca tradycyjne wskaźniki błędów słów w bardziej intuicyjny procent praktycznie poprawnej treści. W trzech zestawach danych — w tym w ich nowo udostępnionym zbiorze EchoNet++ zawierającym 20 pełnych meczów — wstępne przetwarzanie za pomocą EchoNet konsekwentnie obniża błędy transkrypcji i podnosi Report Accuracy o kilka punktów dla każdego testowanego modelu Whisper. Miary jakości sygnału, które szacują, jak zrozumiała byłaby mowa dla ludzkiego słuchacza, również poprawiają się znacząco po filtracji, odszumianiu i normalizacji. Badania ablacyjne, w których usuwane są poszczególne komponenty, takie jak filtr pasmowy czy detektor głosu, pokazują, że każdy etap wnosi istotny wkład zarówno w przejrzystość, jak i poprawność.

Co to oznacza dla kibiców i analityków
W praktycznym ujęciu EchoNet i EchoNet++ dostarczają niezawodny sposób zamiany godzin hałaśliwych, wielojęzycznych komentarzy meczowych w czysty, czasowo uporządkowany tekst i wskaźniki reakcji tłumu. Dzięki temu deweloperzy mogą automatycznie wykrywać kluczowe wydarzenia na podstawie tonu i słów komentatora, dopasowywać te momenty do wzrostów reakcji publiczności i tworzyć szczegółowe podsumowania lub kompilacje najciekawszych fragmentów bez ręcznego logowania. Co istotne, zbiór danych i kod są udostępniane do badań, dając społeczności wspólną, replikowalną platformę do badania piłki nożnej przez pryzmat dźwięku. Dla kibiców i analityków to praca, która przybliża transmisje sportowe ku przyszłości, w której ścieżka dźwiękowa meczu stanie się równie przeszukiwalna i analizowalna jak sam obraz wideo.
Cytowanie: Majeed, F., Nazir, M., Agus, M. et al. EchoNet++: A multilingual soccer match audio commentary dataset. Sci Rep 16, 8884 (2026). https://doi.org/10.1038/s41598-026-39884-8
Słowa kluczowe: analityka piłkarska, audio sportowe, rozpoznawanie mowy, wielojęzyczne komentarze, analiza transmisji