Clear Sky Science · zh

一种使用多特征指纹和机器学习的鲁棒音频零水印方案

2026-03-14 · 返回目录

声音中隐藏标记的重要性

每天，歌曲、播客和录音在互联网上被复制、流传和分享。对听众来说这种便捷性很好，但对于创作者和公司而言，要在不破坏音质的情况下证明对音频的所有权变得非常困难。本文介绍了一种新的“标记”音频的方法，即便在经过强烈处理后也能证明所有权，同时保持原始声音完全不被修改。

在不触碰声音的前提下保护它

传统的数字水印有点像在图片或歌曲上轻轻按下的印章：额外的数据被加入到原始文件中。然而对于音频，即使是微小的改动也可能产生可听见的伪影，或在法医、医疗或档案记录等必须保持原样的场景引发法律问题。零水印采取了另一条路线。它不是改变声音，而是研究音频中已存在的独特模式，并利用这些模式构建一个存放在别处的“指纹”。在权属争议时，可以将该指纹与可疑录音进行比对——无需对原始信号进行任何编辑。

从多个角度“聆听”音频

作者提出的零水印系统同时从若干互补的角度“聆听”音频。首先，将声音切成短的、互不重叠的片段或帧。对于每一帧，系统测量九种不同的特征，这些特征描述了声音随时间的行为、能量在低高频之间的分布，以及当把采样看作相互关联的网络时其结构的呈现。有些特征反映快速变化，如突发的节拍或起音；有些捕捉频谱中能量集中的位置或频率范围的宽度；还有一些通过数学变换提取出信号的整体形状。将这些度量结合起来，就能为音频的每一时刻描绘出丰富的特征画像。

从丰富的测量到稳定的指纹

并非声音的所有方面在经历强烈处理后都能同等保存。压缩、滤波、重采样以及时间或音高的变化可能会扭曲某些特征，而另一些特征几乎不受影响。为应对这一点，该方法评估了九个特征在多种模拟攻击下的表现。那些保持稳定的特征会被赋予更高的重要性，而波动较大的特征则被弱化。对每帧而言，加权后的特征被融合成一个复合值。对相邻帧进行滑动比较后，这条连续的轨迹被转换成一系列的零和一，就像把声音模式转换成条形码。这个二进制序列随后与期望的水印（例如转换为位的一个小徽标图像）结合，生成最终与该内容唯一绑定的音频指纹。

教机器在噪声中读出信息

核心挑战是：在音频遭受攻击后（例如加入噪声、压缩为 MP3、或略微改变速度）能否恢复出相同的指纹。为解决这一问题，作者训练了一个称为随机森林的机器学习模型。在训练过程中，系统看到许多相同音频帧的原始版本与不同失真后的版本，以及每帧对应的正确二进制“标签”。随机森林学习哪些时间、频率和结构特征的组合对应于0或1。之后，当分析可疑录音时，其帧会以相同方式处理，训练好的森林预测出二进制序列。通过将该预测序列与存储的指纹结合，就能重建原始水印并与真实水印比较。作者还提供了数学论证，说明强调稳定特征并使用基于投票的分类器，即便在强烈攻击下也应能将重建错误保持在较低水平。

方法的抗性如何

为了检验系统，研究人员在来自多种风格的100段音乐片段以及来自知名公共数据集的语音和环境声音上进行了测试。随后，他们对带有指纹的内容施加了广泛的破坏：加入背景噪声、高低通滤波、MP3压缩、重采样与重量化、微小的播放速度变化和音高偏移。他们还使用了专为挑战水印方案设计的严格测试套件 Stirmark。在几乎所有条件下，恢复出的水印与原始相比的比特差异少于4%，相似度得分保持很高，表明水印的模式在很大程度上得以保留。与若干最先进的零水印方法相比，该新方法在复杂的时间和音高修改下通常显示出相同或更好的鲁棒性，同时仍然保持音频完全不被修改。

这对日常音频意味着什么

简而言之，这项工作表明可以在不更改原始声音任何采样的情况下证明一首歌或一段录音的所有权。通过谨慎地结合对音频信号的多重视角，并利用机器学习在失真中读出信息，该方法产生了能经受常见现实处理的鲁棒指纹。这使其成为唱片公司、流媒体平台、档案馆以及任何需要在保持音频原样的同时强力防止滥用的场景中的有前景的工具。

引用: Khaleel, D.I., Mosleh, M., Al-nidawi, W.J.A. et al. A robust audio zero watermarking scheme using multi feature fingerprints and machine learning. Sci Rep 16, 13504 (2026). https://doi.org/10.1038/s41598-026-40419-4

关键词: 音频水印, 数字版权, 机器学习, 信号处理, 内容保护