Clear Sky Science · ru

M6: многогенераторная, мультидоменная, многоязычная и культурная, многожанровая, многокомпонентная база данных для обнаружения машинно-сгенерированной музыки

· Назад к списку

Почему рост музыки, созданной ИИ, имеет значение

Музыкальные стриминговые сервисы незаметно наполняются треками, написанными не людьми, а алгоритмами. Такие машинно-сгенерированные композиции могут быть полезными — для терапии, саундтреков к фильмам или для плейлистов на каждый день — но они также размывают границу между человеческим творчеством и автоматизированным производством. В этой статье представлена M6 — крупная новая коллекция музыки, созданная для помощи исследователям в различении музыки, сделанной человеком, и музыки, созданной ИИ, а также для понимания того, что их отличает. Цель проекта — поддерживать справедливое признание заслуг артистов, при этом позволяя ИИ играть конструктивную роль в создании музыки.

Создание большой экспериментальной базы музыки

Авторы утверждают, что прогресс в обнаружении музыки, сгенерированной ИИ, тормозился из-за нехватки подходящих данных. Существующие сборники либо ориентированы на другие задачи — например, сопоставление музыки с текстовыми описаниями, либо охватывают лишь узкий спектр музыкальных стилей. M6 призвана заполнить этот пробел. Она объединяет тысячи треков, созданных людьми, с тысячами треков, сгенерированных несколькими разными ИИ-системами, оформленных в стандартном аудиоформате. Набор данных намеренно широк: он охватывает множество инструментов, языков, культур, жанров, длины песен, а также вокальные композиции и инструментальные фоновые произведения. Такое богатое разнообразие позволяет исследователям проверять, работают ли методы обнаружения в реалистичных, постоянно меняющихся музыкальных условиях.

Figure 1
Figure 1.

Сбор песен от людей и машин

Чтобы собрать человеческую составляющую M6, команда использовала известные открытые коллекции, такие как GTZAN (по музыкальным жанрам), Free Music Archive, COSIAN (японская вокальная музыка) и набор данных с отдельными звуками инструментов. Они также при необходимости отбирали дополнительные композиции из стриминговых платформ, когда это позволяло лицензирование, выбирая отрывки, которые явно демонстрируют основную музыкальную идею, а не просто короткие кадры. Со стороны машин команда сгенерировала новую музыку с помощью нескольких современных систем — включая открытые исследовательские модели и коммерческие инструменты. Тщательно продуманные подсказки, часть из которых была созданы языковой моделью, просили эти системы создавать музыку в определённых стилях, с заданными темпами или конкретными инструментами, чтобы треки ИИ отражали разнообразие человеческой музыки.

Проверка качества и выявление тонких различий

Поскольку оценки музыкального качества субъективны, авторы сочетали мнения слушателей с объективными измерениями. Они рассчитали простые числовые дескрипторы для каждого трека, охватывающие такие аспекты, как сложность ритмов, широта мелодического диапазона, «яркость» спектра звука и общий запас энергии в сигнале. В среднем музыкальные произведения, созданные ИИ, отличались от человеческих по этим показателям — например, у них чаще встречался слегка уже диапазон высот или более низкая общая энергия — но различия были настолько малы, что большинство слушателей не заметили бы их без тщательного сравнения. В слуховых тестах с участием 50 волонтёров люди правильно определяли, был ли отрывок создан человеком или ИИ, лишь примерно в половине случаев — по сути не лучше подбрасывания монеты. Это указывает на то, что музыка, созданная ИИ, уже достигла уровня полировки, который легко может ввести в заблуждение случайных слушателей.

Проверка методов детекции

С наличием M6 исследователи оценили разные компьютерные модели, чтобы понять, насколько хорошо они могут обнаруживать музыку, сгенерированную ИИ. Они пробовали классическое машинное обучение, нейронные сети в стиле обработки изображений, работающие со спектрограммами, трансформеры и современные аудиосистемы, изначально созданные для обнаружения фальшивой речи. Когда модели обучали и тестировали на схожих типах музыки, нескольким из них удалось достичь высокой точности, особенно сверточным сетям, которые сосредоточены на закономерностях во временно‑частотном представлении звука. Однако производительность резко падала, когда модели сталкивались с «внедоменных» данных — стилями, языками или генераторами, которых они ранее не видели. Исследование также показало, что разные системы генерации музыки оставляют характерные акустические «отпечатки», из-за чего некоторые генераторы легче обнаружить, чем другие, и что детекторы могут переобучаться на конкретные инструменты, а не выявлять более глубокие признаки машинной музыки.

Figure 2
Figure 2.

Что это означает для музыки и ИИ

Проект M6 показывает, что хотя компьютеры часто могут точно отмечать музыку, сгенерированную ИИ, в знакомых условиях, надёжное обнаружение «в дикой природе» остаётся серьёзной задачей. Людям уже трудно отличить такие треки, а современные алгоритмы спотыкаются, когда музыка меняет жанр, язык, длину или метод генерации. Выпустив большой, разнообразный и общедоступный набор данных, авторы надеются стимулировать разработку более надёжных и прозрачных средств обнаружения. В свою очередь такие инструменты могут помочь поддерживать доверие к цифровым музыкальным платформам, обеспечивать справедливое признание человеческих исполнителей и направлять будущие ИИ‑системы к сотрудничеству с музыкантами, а не к их тихой замене.

Цитирование: Li, Y., Li, H., Specia, L. et al. M6: multi-generator, multi-domain, multi-lingual and cultural, multi-genres, multi-instrument machine-generated music detection databases. Sci Rep 16, 9237 (2026). https://doi.org/10.1038/s41598-026-36044-w

Ключевые слова: музыка, сгенерированная ИИ, аудио дипфейк, обнаружение музыки, машинное обучение, цифровое творчество