Clear Sky Science · zh

M6:多生成器、多领域、多语言与文化、多体裁、多乐器的机器生成音乐检测数据库

· 返回目录

为什么 AI 创作音乐的兴起很重要

音乐流媒体平台正在悄然被并非人类创作而由算法生成的歌曲填满。此类机器生成的曲目可作为治疗、电影配乐或日常播放列表的有用工具,但它们也模糊了人类创作与自动化制作之间的界线。本文介绍了 M6,这是一个大型的新音乐集合,旨在帮助研究人员区分人类创作与 AI 创作的音乐,并理解两者的差异。其目标是在维护艺术家公平署名的同时,让 AI 在音乐创作中发挥建设性作用。

构建大型音乐测试平台

作者认为,检测 AI 生成音乐的进展受限于合适数据的缺乏。现有集合要么聚焦于其他任务(例如将音乐与文本描述匹配),要么只涵盖有限的音乐风格。M6 的设计正是为填补这一空白。它将成千上万的人类创作曲目与由若干不同 AI 系统制作的数千首曲目结合,统一以标准音频格式打包。该数据集故意保持广泛覆盖:跨越多种乐器、语言、文化、体裁、歌曲时长,并包含人声歌曲与器乐伴奏等。丰富的多样性让科学家能够测试检测方法在真实且不断变化的音乐环境中是否有效。

Figure 1
Figure 1.

从人类与机器处收集歌曲

为构建 M6 的人类部分,团队利用了若干知名的开放集合,如用于音乐风格的 GTZAN、Free Music Archive、COSIAN(日本人声音乐)以及单个乐器声音的数据集。他们在许可允许的情况下也从流媒体平台采样了额外歌曲,优先选择清晰展现主要音乐想法而非仅仅片段的片段。机侧则使用若干最先进系统生成新音乐,包括开源研究模型与商业工具。通过精心设计的提示词,其中一些由语言模型生成,请求这些系统以特定风格、速度或特定乐器创作音乐,使得 AI 曲目能反映出与人类音乐相似的多样性。

检查质量并发现微妙差异

由于对音乐质量的判断带有主观性,作者将听众意见与客观测量结合起来。他们为每个曲目计算了简单的数值描述符,以捕捉节奏复杂度、旋律音域宽度、频谱亮度以及信号能量等方面。平均来看,AI 创作的作品在这些度量上与人类作品存在差异——例如常表现出略窄的音高范围或更低的整体能量——但差异足够小,以致大多数听众在不进行仔细比较的情况下不会注意到。在 50 名志愿者的听力测试中,人们识别出片段是人类创作还是 AI 创作的准确率仅约为一半,实质上与抛硬币无异。这表明 AI 音乐已达到可轻易欺骗普通听众的抛光程度。

将检测方法付诸考验

有了 M6,研究者评估了多种计算模型对检测 AI 生成音乐的能力。他们尝试了经典机器学习、处理频谱图的图像类神经网络、变换器(transformer)模型以及最初用于检测伪造语音的现代音频系统。当模型在相似类型的音乐上训练和测试时,若干模型达到了较高的准确率,尤其是专注于声音时频图模式的卷积网络。然而,当模型面对“域外”音乐——未曾见过的风格、语言或生成器时,性能显著下降。研究还揭示,不同的 AI 音乐系统会留下不同的声学“指纹”,使得某些生成器更容易被识别,进而引发检测器可能对特定工具过拟合而非捕捉机器生成音乐更深层特征的担忧。

Figure 2
Figure 2.

这对音乐与 AI 意味着什么

M6 项目表明,尽管在熟悉的情境中计算机常能准确标记 AI 生成的音乐,但在复杂多变的现实环境中实现稳健检测仍是重大挑战。人类听众已经难以区分两者,而当前算法在音乐体裁、语言、时长或生成方式变化时会失灵。通过发布一个大型、多样且可公开获取的数据集,作者希望推动更可靠、更透明的检测工具的发展。反过来,这类工具可以帮助维护数字音乐平台的信任、支持对人类艺术家的公平认可,并引导未来的 AI 系统以与音乐家协作而非静默替代的方向发展。

引用: Li, Y., Li, H., Specia, L. et al. M6: multi-generator, multi-domain, multi-lingual and cultural, multi-genres, multi-instrument machine-generated music detection databases. Sci Rep 16, 9237 (2026). https://doi.org/10.1038/s41598-026-36044-w

关键词: AI 生成的音乐, 深度伪造音频, 音乐检测, 机器学习, 数字创作