Clear Sky Science · it

Una rete neurale a spike ispirata a neuroscienze e psicologia per l’apprendimento e la composizione musicale occidentale condizionata per modo e tonalità

· Torna all'indice

Perché insegnare ai computer a percepire le tonalità è importante

La maggior parte delle persone avverte quando una canzone è “tornata a casa” sulla sua nota finale, o quando un accordo sbagliato fa suonare tutto stonato. Quella sensazione istintiva si basa su regole nascoste di tonalità e modo — lo scheletro tonale sotto la musica occidentale. L’intelligenza artificiale moderna può generare melodie all’infinito, ma spesso ignora queste regole o le codifica in modo rozzo. Questo articolo presenta un nuovo modello ispirato al cervello che apprende tonalità e modi musicali in modo più simile a un ascoltatore umano, e poi usa quella conoscenza per comporre armonie a quattro voci. L’obiettivo è rendere le macchine musicali non solo più musicali, ma anche più comprensibili.

Dall’ascolto quotidiano alle mappe interne del suono

Quando ascolti musica, il cervello costruisce gradualmente una mappa interna di quali note risultano stabili, quali suonano tese e come di solito si svolgono i modelli. Gli psicologi hanno descritto questo con il modello di Krumhansl–Schmuckler, che misura quanto ciascuna delle 12 classi di altezza appartenga a una data tonalità. La neuroscienza collega questo tipo di conoscenze schematiche ad aree cerebrali che organizzano l’esperienza nel tempo, come la corteccia prefrontale mediale e strutture della memoria come l’ippocampo. Gli autori sostengono che la maggior parte dei sistemi di deep learning per la musica trascura questi insight psicologici e biologici: spesso forzano tutti i brani in una tonalità di riferimento o trattano la tonalità come un’etichetta semplice, e il loro funzionamento interno è difficile da interpretare. Il nuovo lavoro invece mira a costruire una rete i cui collegamenti interni possano essere confrontati direttamente con la percezione tonale umana.

Figure 1
Figura 1.

Una rete simile al cervello che percepisce scale e sequenze

I ricercatori progettano una rete neurale a spike, un tipo di modello che comunica tramite brevi impulsi elettrici, richiamando i neuroni reali. La dividono in due sottosistemi principali. Un sottosistema “tonale” rappresenta i modi (maggiore e minore) e le 24 tonalità usate nella musica tonale occidentale, disposte in una gerarchia che ricorda come il cervello immagazzina schemi astratti. Un sottosistema di “memoria sequenziale” conserva le note effettive di un brano a quattro voci — le loro altezze e la loro durata — distribuite su flussi separati corrispondenti a soprano, alto, tenore e basso. All’interno di questi flussi, altezza e durata sono codificate da insiemi di piccole colonne di neuroni, liberamente ispirate all’organizzazione della corteccia uditiva e a cellule sensibili al tempo studiate nella ricerca sul timing.

Lasciare che i collegamenti crescano con l’esperienza

Invece di cablare tutto in anticipo, il modello permette la formazione di nuove sinapsi tra il sottosistema tonale e quello di memoria sequenziale quando i neuroni si attivano ripetutamente insieme mentre un brano viene riprodotto. Questo imita come i circuiti neurali emergono e cambiano durante l’apprendimento. Una volta che una connessione esiste, la sua forza viene regolata da una regola chiamata plasticità dipendente dai tempi di spike: se un neurone sorgente tende a sparare poco prima di un neurone bersaglio, il collegamento si rafforza; se l’ordine è invertito, si indebolisce. Nel corso di molti brani, inclusi esercizi didattici progettati per mettere in evidenza specifiche idee armoniche e un’ampia raccolta di corali di J.S. Bach, il cablaggio interno della rete riflette progressivamente quali note funzionano come centrali, di supporto o rare in ciascun modo e tonalità.

Figure 2
Figura 2.

Dentro il senso di tonalità della macchina

Per verificare se il modello avesse davvero sviluppato aspettative tonali simili a quelle umane, gli autori misurarono due caratteristiche delle connessioni apprese: quanti sinapsi accumulava ciascuna classe di altezza e quanto forti diventavano in media quelle sinapsi. Confrontarono poi questi schemi con i noti profili psicologici di tonalità. Sia nei modi maggiore che minore e in molte tonalità individuali, la corrispondenza risultò sorprendentemente alta. Le note che gli umani percepiscono come tono “di casa” o come principali toni di supporto emersero anche come le più connesse nella rete. Differenze sottili riflettevano il materiale d’addestramento — per esempio, esercizi didattici che enfatizzano certi accordi spinsero la rete a pesare maggiormente quelle note. Questo suggerisce che il modello cattura sia leggi tonali generali sia abitudini specifiche del corpus, proprio come l’inculturazione umana.

Comporre nuova musica in una tonalità scelta

Quando gli viene chiesto di comporre, al sistema viene fornito un modo e una tonalità target, più un breve accordo iniziale. L’attività nei neuroni specifici per la tonalità poi biasizza il sottosistema di memoria sequenziale tramite le connessioni apprese. Neuroni concorrenti delle note si attivano e una semplice regola “il vincitore prende tutto” seleziona la nota successiva in ciascuna voce. Passo dopo passo, il modello genera nuove armonie a quattro voci che restano all’interno della tonalità voluta pur esplorando forme melodiche varie. In confronto con una gamma di popolari modelli di deep learning — inclusi reti ricorrenti, transformer e modelli di diffusione — il modello a spike produce brani i cui range di altezza, uso delle note della scala e altre statistiche strutturali somigliano più da vicino ai dataset di riferimento. In particolare, mantiene una quota molto alta di note in tonalità senza diventare monotono.

Cosa significa questo per le macchine musicali future

Per il lettore generale, il risultato chiave è che una rete ispirata al cervello può apprendere qualcosa di vicino al nostro senso intuitivo di tonalità e scala — e possiamo vedere quella conoscenza direttamente nel suo cablaggio. Il modello non gestisce ancora tutta la ricchezza della musica reale, come l’armonia mutevole, la varietà ritmica o il timing espressivo. Tuttavia offre un ponte concreto tra teoria musicale, psicologia e calcolo neurale. Mostrando che un sistema motivato biologicamente può generare armonie convincenti e consapevoli della tonalità e rivelare come ci è arrivato, questo lavoro indica la strada verso un’IA per la creazione musicale più alfabetizzata musicalmente e più trasparente nel modo in cui pensa il suono.

Citazione: Liang, Q., Zeng, Y. & Tang, M. A spiking neural network inspired by neuroscience and psychology for Western mode- and key-conditioned music learning and composition. Sci Rep 16, 12956 (2026). https://doi.org/10.1038/s41598-026-43529-1

Parole chiave: reti neurali a spike, generazione musicale, tonalità e modo musicale, cognizione musicale computazionale, IA ispirata al cervello