Clear Sky Science · tr

EchoNet++: Çok dilli bir futbol maçı ses yorumları veri kümesi

· Dizine geri dön

Futbolun seslerinin önemi

Büyük bir maçı izlemiş olan herkes bilir ki taraftarın uğultusu ve yorumcunun sesindeki inişler çıkışlar, goller kadar oyunun dramatik öğelerindendir. Yine de modern spor teknolojilerinin neredeyse tamamı kameraların gördüğüne odaklanırken, mikrofonların duyduklarını göz ardı ediyor. Bu makale, profesyonel futbol yayınlarının birçok ülkeden gelen kaotik sesini bilgisayarların analiz edebileceği temiz, aranabilir metne dönüştüren birleşik bir sistem ve veri kümesi olan EchoNet ve EchoNet++'ı tanıtıyor. Bu, taktikleri, duyguyu ve hikâye anlatımını ligler ve diller arasında insan çeviri ekiplerinin ulaşamayacağı bir ölçekte incelemeyi mümkün kılıyor.

Gürültülü stadyumdan temiz sinyale

Televizyon yayınları akustik açıdan karmaşıktır. Yorumcular, tezahürat yapan kalabalığın, stadyum müziğinin ve anlık coşku patlamalarının üzerinden konuşur. Önceki araçlar çoğunlukla bu ham gürültüyü doğrudan konuşma tanıma yazılımlarına veriyordu; bu yazılımlar üst üste binen sesler, değişen diller ve düşük ses kalitesiyle başa çıkmakta zorlandı. EchoNet sorunu tek bir akıllı model yerine mühendislik hattı olarak ele alıyor. Tam maç videolarından ses parçasını çıkararak başlayıp bunu standart, yüksek kaliteli bir formata dönüştürüyor. Sistem daha sonra insan konuşmasının bulunduğu frekans aralığına odaklanarak rumbling basları ve tiz artefaktları bastırmak için frekans alanına geçiyor. Demucs adlı bir derin öğrenme aracı, konuşma benzeri sesleri geride kalanlardan ayırarak sonraki aşamaların yorumlaması için çok daha temiz bir parça bırakıyor.

Figure 1
Figure 1.

Makinelere sesi gürültüden ayırt etmeyi öğretmek

Ses temizlendikten sonra EchoNet birinin gerçekten konuşup konuşmadığını ve bu sesin yorumcuya mı yoksa kalabalığa mı ait olduğunu belirlemelidir. Bunun için yazarlar, sesi kısa pencereler halinde tarayan ve her anı konuşma veya konuşma dışı olarak etiketleyen bir sinirsel ses etkinliği tespitçisi kullanıyor. Tespit edilen konuşma parçaları daha yakından inceleniyor. Konuşma dilinin düzenli ritmini ve yapısını gösteren segmentler yorum olarak etiketlenirken, kaotik enerji patlamaları şeklindeki segmentler statlar olarak işaretleniyor. Bu ayrım önemli: yorumcu cümleleri taktiksel ve anlamsal bilgi taşırken, kalabalık tepkileri çoğunlukla goller veya gol fırsatları gibi duygusal zirveleri işaret ediyor. Bu kaynakları ayırarak sistem ilerleyen analizlerde bunlara farklı muamele edebiliyor.

Birçok dili tek bir hikâyeye dönüştürmek

EchoNet her yorum parçasını, standart ve hız açısından optimize edilmiş varyantlar dahil olmak üzere Whisper otomatik konuşma tanıma modelinin birkaç versiyonuna besliyor. Bu modeller yüz binlerce saatlik çok dilli ses üzerinde eğitildiği için, yayıncıların İngilizce, Almanca, İspanyolca, İtalyanca, Fransızca ve diğer diller arasında geçiş yaptığı Avrupa’nın büyük ligleri için iyi birer seçenek oluşturuyor. Sistem her parçanın zamanlamasını, dilini ve transkriptini maç yarılarına bağlı yapılandırılmış JSON dosyalarına kaydediyor. İngilizce olmayan klipler için EchoNet önce orijinal dilde transkript çıkarıyor, ardından İngilizce sürümlerini elde etmek için metni bir çeviri motoruna gönderiyor. Bu iki aşamalı tasarım, transkripsiyon ve çeviri hatalarını ayrı tutarak araştırmacıların başarısızlıkları ayıklamasına ve dil-özel davranışları karşılaştırmasına yardımcı oluyor.

Her şeyin ne kadar iyi çalıştığını ölçmek

Bir boru hattı en zayıf halkası kadar güçlü olduğundan, yazarlar EchoNet’i birkaç açıdan değerlendiriyor. Geleneksel kelime hata oranlarını daha sezgisel bir pratik doğruluk yüzdesine çeviren yeni bir "Rapor Doğruluğu" puanı tanıtıyorlar. Yeniden işleme EchoNet ile ön işleme yapıldığında, üç veri kümesi—yeni yayınladıkları 20 tam maçlık EchoNet++ koleksiyonu da dahil—boyunca transkripsiyon hataları tutarlı şekilde azalıyor ve test edilen her Whisper modelinde Rapor Doğruluğu birkaç puan artıyor. Konuşmanın bir insan dinleyiciye ne kadar anlaşılır geldiğini tahmin eden sinyal kalitesi ölçüleri, filtreleme, gürültü azaltma ve normalizasyon sonrası belirgin şekilde iyileşiyor. Bant geçiren filtre veya ses detektörü gibi bireysel bileşenlerin kaldırıldığı ablation çalışmaları, her aşamanın hem açıklık hem de doğruluk açısından anlamlı katkı sağladığını gösteriyor.

Figure 2
Figure 2.

Bu, taraftarlar ve analistler için ne anlama geliyor

Günlük terimlerle EchoNet ve EchoNet++ saatlerce süren gürültülü, çok dilli maç yorumlarını güvenilir şekilde temiz, zamanla hizalanmış metne ve kalabalık göstergelerine dönüştürmenin bir yolunu sunuyor. Bu temelle geliştiriciler yorumcunun tonu ve sözlerinden anahtar olayları otomatik olarak tespit edebilir, bu anları kalabalık tepkilerindeki zirvelerle eşleştirebilir ve manuel kayıt tutmaya gerek kalmadan ayrıntılı özetler veya öne çıkan klipler oluşturabilir. Önemli olarak, veri kümesi ve kod araştırma kullanımı için yayımlanıyor; topluluğa sesi kullanarak futbolu çalışmak için paylaşılan, tekrarlanabilir bir platform sunuyor. Taraftarlar ve analistler için bu çalışma, oyunun sesinin videoyla aynı derecede aranabilir ve analiz edilebilir hale geldiği bir geleceğe doğru spor yayıncılığını itiyor.

Atıf: Majeed, F., Nazir, M., Agus, M. et al. EchoNet++: A multilingual soccer match audio commentary dataset. Sci Rep 16, 8884 (2026). https://doi.org/10.1038/s41598-026-39884-8

Anahtar kelimeler: futbol analitiği, spor sesi, konuşma tanıma, çok dilli yorum, yayın analizi