Clear Sky Science · zh

一种受神经科学与心理学启发的脉冲神经网络，用于西方调式与调性条件的音乐学习与创作

2026-03-10 · 返回目录

为何教会计算机“听出”调性很重要

大多数人能直觉感受到一首曲子何时回到终结音，或者某个不和谐的和弦为何让一切听起来不对劲。这种直觉基于音乐的调性与调式的隐性规则——西方音乐之下的音调骨架。现代人工智能能不断生成旋律，却常常忽略这些规则或以粗糙的方式硬编码它们。本文提出一种新的脑启发模型，使其像人类听者那样学习音乐的调性与调式，然后利用这些知识谱写四声部和声。目标是让音乐创作机器不仅更有音乐性，而且更易理解。

从日常聆听到内部的声音地图

当你聆听音乐时，大脑会逐步构建一个内部地图：哪些音听起来稳定、哪些感到紧张、以及乐句通常如何展开。心理学家用Krumhansl–Schmuckler模型来捕捉这种现象，该模型衡量12个音高类在某一调中各自的归属感。神经科学则将此类图式化知识与负责随时间组织经验的大脑区域联系起来，例如内侧前额叶皮层和像海马体这样的记忆结构。作者指出，大多数深度学习的音乐系统跳过了这些心理与生物学洞见：它们常把所有曲子强行映射到一个参考调，或把调性当作单一标签处理，而其内部机制又难以解释。新的工作则着眼于构建一个其内部连接可以直接与人类音调感知对比的网络。

一种既能“听”音阶又能处理旋序的类脑网络

研究者设计了一种脉冲神经网络，这类模型通过短促的电脉冲进行通讯，呼应真实神经元的工作方式。他们将其拆分为两个主要子系统。“音调”子系统表示调式（大调与小调）以及西方调性音乐中使用的24个调，这些表示按层级组织，类似大脑存储抽象图式的方式。“序列记忆”子系统则保留四声部作品的实际音符——它们的音高与时值——分布在对应女高、女低、男高与低音的独立通道中。在这些通道内，音高与时值由一组小柱状神经元阵列编码，松散地借鉴了听觉皮层的组织以及计时研究中发现的时间敏感细胞。

让连接随着经验生长

模型并非事先把所有连线布好，而是在播放一段曲子时，当神经元反复共同放电时，允许音调子系统与序列记忆子系统之间形成新的突触。这模拟了学习过程中神经回路的出现与变化。一旦连接形成，其强度便由称为脉冲时序依赖可塑性（spike‑timing‑dependent plasticity）的规则调整：若源神经元常在目标神经元之前放电，连接会增强；若顺序相反，则减弱。经过许多曲目的训练——包括为突出特定和声观念而精心编写的练习以及大量J.S.巴赫的合唱曲集——网络的内部连线逐渐反映出在每种调式与调性中哪些音起中心或支撑作用、哪些音较为罕见。

机器“感知”调性的内部样貌

为了检验模型是否真正形成了类似人类的音调预期，作者测量了其学习到的连接的两个特征：每个音高类积累了多少条突触，以及这些突触平均变得多么强。他们随后将这些模式与著名的心理学调性轮廓进行比较。无论在大调还是小调，以及许多具体调性中，这种匹配度都非常高。人类听作“主音”或主要支撑音的音在网络中也表现为连接最密集的音。细微差异则反映了训练语料——例如强调某些和弦的练习会促使网络更强烈地权重那些音。这表明该模型既捕捉到了普遍的调性法则，又体现了语料特有的习惯，类似人类的文化习得。

在选定调性中创作新音乐

在被要求创作时，系统得到目标调式与调性以及一个短的起始和弦。调性特异的神经元活动通过学习到的连接对序列记忆子系统施加偏置。相互竞争的音符神经元发放，简单的“赢家通吃”规则选择每个声部的下一个音。一步步地，模型生成新的四声部和声，既保持在目标调性内，又能探索多样的旋律形状。与一系列流行的深度学习模型（包括循环网络、变换器和扩散模型）相比，脉冲模型在音高范围、使用音阶音以及其他结构统计上更接近参考语料。特别是，它在不陷入单调的情况下仍能维持极高比例的调内音。

这对未来音乐机器意味着什么

对普通读者而言，关键结论是：一个受大脑启发的网络可以学习接近我们直觉的调性与音阶感觉——而且我们可以直接在其连线上看到这些知识。该模型尚未涵盖真实音乐的全部丰富性，例如变化的和声、节奏多样性或富有表现力的时间处理。但它为音乐理论、心理学与神经计算之间提供了一座具体的桥梁。通过展示一个生物学动机的系统既能生成令人信服的、具调性感知的和声，又能揭示其推导过程，这项工作指向了未来更具音乐素养且在思考声音方式上更透明的音乐创作人工智能。

引用: Liang, Q., Zeng, Y. & Tang, M. A spiking neural network inspired by neuroscience and psychology for Western mode- and key-conditioned music learning and composition. Sci Rep 16, 12956 (2026). https://doi.org/10.1038/s41598-026-43529-1

关键词: 脉冲神经网络, 音乐生成, 调性与调式, 计算音乐认知, 脑启发人工智能