Clear Sky Science · de

Ein spikendes neuronales Netzwerk, inspiriert von Neurowissenschaft und Psychologie, für westlich‑tonal und tonart‑konditioniertes Musiklernen und Komponieren

· Zurück zur Übersicht

Warum es wichtig ist, Computern das Hören von Tonarten beizubringen

Die meisten Menschen können spüren, wann ein Stück „nach Hause kommt“ auf seinen Schlussakkord oder wann ein falscher Akkord alles verstimmt. Dieses Bauchgefühl beruht auf verborgenen Regeln von Tonart und Modus — dem tonalen Skelett westlicher Musik. Moderne Künstliche Intelligenz kann endlose Melodien erzeugen, übersieht diese Regeln aber oft oder kodiert sie auf grobe Weise. Dieser Artikel stellt ein neues, vom Gehirn inspiriertes Modell vor, das Tonarten und Modi eher wie ein menschlicher Hörer erlernt und dieses Wissen dann zum Komponieren vierstimmiger Harmonie nutzt. Ziel ist es, Musikmaschinen nicht nur musikalischer, sondern auch verständlicher zu machen.

Vom alltäglichen Hören zu inneren Klangkarten

Beim Musikhören baut das Gehirn allmählich eine innere Karte auf, welche Töne stabil wirken, welche Spannung erzeugen und wie sich Muster typischerweise entfalten. Psychologen haben dies mit dem Krumhansl–Schmuckler‑Modell erfasst, das misst, wie stark jede der 12 Tonklassen zu einer bestimmten Tonart gehört. Die Neurowissenschaft verknüpft dieses schematische Wissen mit Hirnarealen, die Erfahrungen über die Zeit organisieren, etwa dem medialen präfrontalen Kortex und Gedächtnisstrukturen wie dem Hippocampus. Die Autoren argumentieren, dass die meisten Deep‑Learning‑Musiksysteme diese psychologischen und biologischen Einsichten überspringen: Sie zwingen Werke oft in eine Referenztonart oder behandeln Tonart nur als einfaches Label, und ihr Innenleben ist schwer zu interpretieren. Die neue Arbeit setzt stattdessen darauf, ein Netzwerk zu bauen, dessen innere Verbindungen sich direkt mit menschlicher tonaler Wahrnehmung vergleichen lassen.

Figure 1
Figure 1.

Ein gehirnähnliches Netzwerk, das sowohl Skalen als auch Sequenzen hört

Die Forschenden entwerfen ein spikendes neuronales Netzwerk, ein Modelltyp, der über kurze elektrische Impulse kommuniziert und reale Neuronen nachahmt. Sie teilen es in zwei Hauptsubsysteme. Ein „tonales“ Subsystem repräsentiert Modi (Dur und Moll) und die 24 in der westlichen Tonalität verwendeten Tonarten, angeordnet in einer Hierarchie, die an die Speicherung abstrakter Schemata im Gehirn erinnert. Ein „sequentielles Gedächtnis“ speichert die tatsächlichen Töne eines vierstimmigen Stücks — ihre Tonhöhen und Dauern — verteilt auf getrennte Ströme für Sopran, Alt, Tenor und Bass. Innerhalb dieser Ströme werden Tonhöhe und Dauer durch Reihen kleiner Neuronen‑Spalten kodiert, lose inspiriert von der Organisation des auditorischen Kortex und zeitfühligen Zellen aus der Timing‑Forschung.

Verbindungen wachsen lassen durch Erfahrung

Anstatt alles vorab zu verkabeln, erlaubt das Modell die Bildung neuer Synapsen zwischen dem tonalen Subsystem und dem sequentiellen Gedächtnis, wenn Neuronen beim Abspielen eines Stücks wiederholt gemeinsam feuern. Das ahmt nach, wie sich neuronale Schaltkreise beim Lernen bilden und verändern. Sobald eine Verbindung existiert, wird ihre Stärke durch eine Regel namens spike‑timing‑dependent plasticity angepasst: Feuert eine Quellneurone typischerweise kurz vor einer Zielneurone, wird die Verbindung stärker; ist die Reihenfolge umgekehrt, schwächt sie sich. Über viele Stücke hinweg — einschließlich didaktischer Übungen, die gezielt bestimmte harmonische Ideen betonen, und einer großen Sammlung von J. S. Bach‑Chorälen — spiegelt die interne Verkabelung des Netzwerks allmählich wider, welche Töne in jedem Modus und jeder Tonart zentral, unterstützend oder selten sind.

Figure 2
Figure 2.

Im Inneren des Maschinen‑Tonartgefühls

Um zu prüfen, ob das Modell tatsächlich menschenähnliche tonale Erwartungen entwickelt hat, maßen die Autoren zwei Merkmale seiner gelernten Verbindungen: wie viele Synapsen jede Tonklasse anhäufte und wie stark diese Synapsen im Durchschnitt wurden. Sie verglichen diese Muster dann mit den bekannten psychologischen Tonartprofilen. Sowohl in Dur als auch Moll und über viele einzelne Tonarten war die Übereinstimmung auffallend hoch. Töne, die Menschen als „Heim“-Ton oder als Hauptstützen hören, traten im Netzwerk ebenfalls als am stärksten vernetzt hervor. Feine Unterschiede reflektierten das Trainingsmaterial — etwa verschobenes Gewicht zugunsten bestimmter Akkorde durch Übungsstücke. Das deutet darauf hin, dass das Modell sowohl allgemeine tonale Gesetzmäßigkeiten als auch korpus‑spezifische Gewohnheiten erfasst, ähnlich wie kulturelle Prägung beim Menschen.

Neue Musik in einer gewählten Tonart komponieren

Beim Komponieren erhält das System einen Zielmodus und eine Zieltonart sowie einen kurzen Anfangsakkord. Die Aktivität in den tonart­spezifischen Neuronen biasiert dann das sequentielle Gedächtnis über die gelernten Verbindungen. Konkurrenten unter den Notenneuronen feuern, und eine einfache „Winner‑takes‑all“‑Regel wählt die nächste Note in jeder Stimme. Schritt für Schritt erzeugt das Modell neue vierstimmige Harmonien, die in der beabsichtigten Tonart bleiben und zugleich abwechslungsreiche melodische Formen erkunden. Im Vergleich mit einer Reihe populärer Deep‑Learning‑Modelle — darunter rekurrente Netze, Transformer und Diffusionsmodelle — produziert das spikende Modell Stücke, deren Tonumfang, Verwendung von Skalentönen und andere strukturelle Statistiken den Referenzdatensätzen näherkommen. Insbesondere hält es einen sehr hohen Anteil tonreiner Töne, ohne monoton zu werden.

Was das für zukünftige musikalische Maschinen bedeutet

Für eine allgemeine Leserschaft ist das zentrale Ergebnis, dass ein vom Gehirn inspiriertes Netzwerk etwas erlernen kann, das unserer intuitiven Vorstellung von Tonart und Skala nahekommt — und dass sich dieses Wissen direkt in seiner Verkabelung ablesen lässt. Das Modell bewältigt noch nicht die ganze Fülle realer Musik, etwa veränderliche Harmonik, rhythmische Vielfalt oder expressive Timing‑Aspekte. Dennoch bietet es eine konkrete Brücke zwischen Musiktheorie, Psychologie und neuronaler Berechnung. Indem gezeigt wird, dass ein biologisch motiviertes System überzeugende, tonartbewusste Harmonien erzeugen und offenlegen kann, wie es dazu kam, weist diese Arbeit auf künftige Musik‑KI hin, die musikalisch versierter und transparenter in ihrer Klangverarbeitung ist.

Zitation: Liang, Q., Zeng, Y. & Tang, M. A spiking neural network inspired by neuroscience and psychology for Western mode- and key-conditioned music learning and composition. Sci Rep 16, 12956 (2026). https://doi.org/10.1038/s41598-026-43529-1

Schlüsselwörter: spikende neuronale Netzwerke, Musikgenerierung, musikalische Tonart und Modus, computationale Musikkognition, hirnorientierte KI