Clear Sky Science · zh

EchoNet++:一个多语种足球比赛音频解说数据集

· 返回目录

为何足球的声音重要

看过重要比赛的人都知道,观众的呼声和解说员语调的起伏,和进球本身一样构成了比赛的戏剧性。然而,几乎所有现代体育技术仍然侧重于摄像头所见,而非麦克风所闻。本文介绍了 EchoNet 与 EchoNet++,这是一个将来自多个国家的职业足球转播中混杂嘈杂的声音,转化为可供计算机分析的干净、可检索文本的系统与数据集。由此可以在规模上研究战术、情感与叙事——这是任何人工翻译团队都难以匹敌的。

从嘈杂的球场到干净的信号

电视转播的声学环境十分复杂。解说员要在歌声、场馆音乐和突如其来的欢呼声中发言。先前的工具多将这些原始噪声直接输入语音识别软件,而面对重叠说话声、语言切换和低质量音频时往往表现不佳。EchoNet 将问题视为一条工程流水线,而不是单一的巧妙模型。它首先从整场比赛视频中提取音轨并将其转换为标准的高质量格式。系统随后进入频率域,聚焦于人类语音所在的频段,同时抑制低沉的低频和刺耳的高频伪影。一个名为 Demucs 的深度学习工具进一步将类语音声音与其他声音分离,为后续环节留下更清晰的音轨以便解读。

Figure 1
Figure 1.

教机器分辨人声与噪声

在声音被净化后,EchoNet 需要判定何时有人在说话,以及该声音是属于解说员还是观众。为此,作者使用了一个神经网络语音活动检测器,在短时间窗口内扫描音频并标注每一时刻为语音或非语音。检测到的语音片段会被更仔细地检查。呈现出稳定节奏与语言结构的段落被标记为解说,而像爆发性、混乱能量的段落则被标记为观众。这种分离很重要:解说句子承载战术与叙事信息,而观众反应主要指示诸如进球或险些错失的情绪高潮。通过分离这些来源,系统可以在后续分析中对它们采取不同的处理策略。

把多种语言变成一个故事

EchoNet 将每个解说片段输入到多个版本的 Whisper 自动语音识别模型中,包括标准版和针对速度优化的变体。这些模型在数十万小时的多语种音频上训练,适用于欧洲主要联赛,那里转播常在英语、德语、西班牙语、意大利语、法语等语言间切换。系统将每个片段的时序、语言和转录记录到与比赛上下半场关联的结构化 JSON 文件中。对于非英语片段,EchoNet 先以原语言转录,然后将文本发送到翻译引擎以获得英文版本。这一两步设计将转录与翻译错误分离,便于研究人员调试故障并比较不同语言下的行为差异。

如何衡量其效果

因为一条流水线的强度取决于最薄弱的环节,作者从多个角度评估了 EchoNet。他们引入了一个新的“报告准确率”分数,将传统的词错误率转换为更直观的、实用正确内容的百分比。在包括新发布的 20 场完整比赛的 EchoNet++ 集合在内的三个数据集中,经 EchoNet 预处理后,所有测试的 Whisper 模型的转录错误均稳步下降,报告准确率提升了数个百分点。估计人类听众对语音理解度的信号质量指标在滤波、降噪和归一化处理后也显著改善。消融研究(在其中移除带通滤波或语音检测器等单个组件)显示,每个阶段对清晰度和正确性都有重要贡献。

Figure 2
Figure 2.

这对球迷与分析师意味着什么

通俗地说,EchoNet 与 EchoNet++ 提供了一种可靠的方法,将数小时嘈杂、多语种的比赛解说转化为干净、时间对齐的文本和观众反应指标。以此为基础,开发者可以自动从解说的语调与词语中检测关键事件,把这些时刻与观众反应的峰值匹配,并构建详细的摘要或集锦,而无需手工记录。更重要的是,该数据集与代码已对研究用途公开,给社区提供了一个共享且可复现的平台,用声音来研究足球。对于球迷和分析师而言,这项工作推动体育报道走向一个未来,使比赛的声音轨像视频一样可搜索、可分析。

引用: Majeed, F., Nazir, M., Agus, M. et al. EchoNet++: A multilingual soccer match audio commentary dataset. Sci Rep 16, 8884 (2026). https://doi.org/10.1038/s41598-026-39884-8

关键词: 足球分析, 体育音频, 语音识别, 多语种解说, 广播分析