Clear Sky Science · ru

Спайкинговая нейронная сеть, вдохновлённая нейронаукой и психологией, для обучения и композиции музыки в западных ладах и тональностях

· Назад к списку

Почему важно научить компьютеры «слышать» тональности

Большинство людей интуитивно чувствуют, когда песня «вернулась домой» к финальной ноте, или когда неверный аккорд делает всё звучание неправильным. Это внутреннее ощущение опирается на скрытые правила тональности и лада — тональный скелет западной музыки. Современный искусственный интеллект способен генерировать бесконечные мелодии, но часто игнорирует эти правила или внедряет их грубо. В этой статье представлен новый мозгоподобный подход, который изучает тональности и лады более похоже на человеческого слушателя, а затем использует это знание для сочинения четырёхголосной гармонии. Цель — сделать музыкальные машины не только более музыкальными, но и более понятными.

От повседневного слушания к внутренним картам звука

Когда вы слушаете музыку, ваш мозг постепенно строит внутреннюю карту: какие ноты кажутся устойчивыми, какие звучат напряжённо и как обычно разворачиваются музыкальные паттерны. Психологи формализовали это в модели Крумхансл-Шмуклер, которая измеряет, насколько сильно каждый из 12 классов высот принадлежит данной тональности. Нейронаука связывает такого рода схематическое знание с областями мозга, которые организуют опыт во времени, такими как медиальная префронтальная кора и структуры памяти вроде гиппокампа. Авторы утверждают, что большинство систем глубокого обучения для музыки упускают эти психологические и биологические наблюдения: они часто сводят все произведения к эталонной тональности или рассматривают тональность как простую метку, а их внутренние механизмы трудно интерпретировать. Новая работа, напротив, преследует цель построить сеть, внутренние связи которой можно напрямую соотнести с человеческим тональным восприятием.

Figure 1
Figure 1.

Мозголикая сеть, которая «слышит» и лады, и последовательности

Исследователи разрабатывают спайкинговую нейронную сеть — тип модели, который общается с помощью кратких электрических импульсов, резонируя с работой реальных нейронов. Они делят её на две основные подсистемы. «Тональная» подсистема представляет лады (мажор и минор) и 24 тональности западной тональной музыки, устроенные иерархически, напоминая способ хранения абстрактных схем в мозге. «Последовательная память» содержит фактические ноты четырёхголосного произведения — их высоты и длительности — распределённые по отдельным потокам для сопрано, альта, тенора и баса. Внутри этих потоков высота и длительность кодируются массивами небольших колонок нейронов, свободно вдохновлённых организацией слуховой коры и времезависимыми клетками, найденными в исследованиях временной обработки.

Позволяя связям расти с опытом

Вместо того чтобы прокладывать все соединения заранее, модель допускает формирование новых синапсов между тональной подсистемой и подсистемой последовательной памяти, когда нейроны многократно активируются одновременно во время воспроизведения произведения. Это имитирует то, как нейронные цепи возникают и меняются при обучении. Как только соединение образовано, его сила корректируется правилом, называемым пластичностью, зависящей от времени спайков: если исходный нейрон обычно стреляет немного раньше целевого, связь усиливается; если порядок обратный, она ослабевает. После множества произведений, включая учебные упражнения, специально подобранные для подчёркивания определённых гармонических идей, и большую коллекцию хоралов И. С. Баха внутренняя проводка сети постепенно начинает отражать, какие ноты в каждом ладе и тональности служат центральными, поддерживающими или редкими.

Figure 2
Figure 2.

Внутри «чувства тональности» машины

Чтобы проверить, развила ли модель действительно человечески похожие тональные ожидания, авторы измерили два свойства её обученных соединений: сколько синапсов накопил каждый класс высот и насколько сильными эти синапсы стали в среднем. Затем они сравнили эти шаблоны с хорошо известными психологическими профилями тональностей. Для мажора и минора и для многих отдельных тональностей совпадение оказалось поразительно высоким. Ноты, которые люди воспринимают как «домашние» тоны или главные поддерживающие ступени, также оказались наиболее сильно связанными в сети. Тонкие различия отражали материалы обучения — например, учебные упражнения, акцентирующие определённые аккорды, сдвигали веса сети в сторону этих нот. Это указывает на то, что модель улавливает как общие тональные законы, так и корпус‑специфические привычки, подобно человеческой инкультурации.

Сочинение новой музыки в заданной тональности

При запросе на сочинение системе задают целевой лад и тональность, а также короткий стартовый аккорд. Активность нейронов, специфичных для тональности, затем смещает работу подсистемы последовательной памяти через выученные связи. Конкурирующие нейроны, отвечающие за ноты, активируются, и простое правило «победитель забирает всё» выбирает следующую ноту в каждом голосе. Шаг за шагом модель генерирует новые четырёхголосные гармонии, которые остаются внутри заданной тональности, но при этом исследуют разнообразные мелодические формы. По сравнению с рядом популярных моделей глубокого обучения — включая рекуррентные сети, трансформеры и диффузионные модели — спайкинговая модель даёт произведения, диапазоны высот, использование ступеней ладовой гаммы и другие структурные статистики которых ближе к референсным наборам. В частности, она сохраняет очень высокий долю нот, находящихся в тональности, не становясь при этом монотонной.

Что это значит для будущих музыкальных машин

Для широкого читателя ключевой вывод в том, что мозгоподобная сеть может выучить нечто близкое к нашему интуитивному ощущению тональности и лада — и мы можем увидеть это знание прямо в её проводке. Модель пока не охватывает всей богатости реальной музыки, такой как меняющаяся гармония, ритмическое разнообразие или выразительная темповая свобода. Тем не менее она предлагает конкретный мост между теорией музыки, психологией и нейронными вычислениями. Показав, что биологически мотивированная система может генерировать убедительную, осведомлённую о тональности гармонию и при этом раскрывать путь, которым она к этому пришла, эта работа наводит на будущее, где музыкальный ИИ будет и более музыкально грамотным, и более прозрачным в своих мыслях о звуке.

Цитирование: Liang, Q., Zeng, Y. & Tang, M. A spiking neural network inspired by neuroscience and psychology for Western mode- and key-conditioned music learning and composition. Sci Rep 16, 12956 (2026). https://doi.org/10.1038/s41598-026-43529-1

Ключевые слова: спайкинговые нейронные сети, генерация музыки, музыкальная тональность и лад, вычислительная музыкальная когниция, искусственный интеллект, вдохновлённый мозгом