Clear Sky Science · pl

Spiąca sieć neuronowa inspirowana neurobiologią i psychologią do uczenia się i komponowania muzyki zachodniej z uwzględnieniem trybu i tonacji

2026-03-10 · Powrót do spisu

Dlaczego uczenie komputerów rozpoznawania tonacji ma znaczenie

Większość ludzi potrafi wyczuć, kiedy utwór „wraca do domu” na końcowej nucie, albo kiedy niepasujący akord sprawia, że wszystko brzmi nie tak. To intuicyjne odczucie opiera się na ukrytych zasadach tonacji i trybu — tonalnym szkielecie muzyki zachodniej. Współczesna sztuczna inteligencja może produkować nieskończone melodie, lecz często pomija te reguły albo implementuje je topornie. W artykule przedstawiono nowy model inspirowany mózgiem, który uczy się tonacji i trybów bardziej jak ludzki słuchacz, a następnie wykorzystuje tę wiedzę do komponowania harmonii na cztery głosy. Celem jest uczynienie maszyn tworzących muzykę nie tylko bardziej muzykalnymi, ale też bardziej zrozumiałymi.

Od codziennego słuchania do wewnętrznych map dźwięku

Kiedy słuchasz muzyki, twój mózg stopniowo buduje wewnętrzną mapę tego, które dźwięki wydają się stabilne, które brzmią napięte i jak zwykle rozwijają się wzorce. Psychologia uchwyciła to w modelu Krumhansla–Schmucklera, który mierzy, jak mocno każda z 12 klas wysokości należy do danej tonacji. Neurobiologia łączy tego rodzaju schematyczną wiedzę z obszarami mózgu organizującymi doświadczenie w czasie, takimi jak przyśrodkowa kora przedczołowa i struktury pamięciowe, np. hipokamp. Autorzy twierdzą, że większość systemów muzycznych opartych na głębokim uczeniu pomija te psychologiczne i biologiczne wnioski: często wymuszają przystosowanie wszystkich utworów do tonacji odniesienia lub traktują tonację jako prostą etykietę, a ich działanie wewnętrzne trudno interpretować. Nowa praca zamiast tego dąży do zbudowania sieci, której wewnętrzne połączenia można bezpośrednio porównać z ludzkim postrzeganiem tonalnym.

Społeczna sieć przypominająca mózg, która rozpoznaje zarówno skale, jak i sekwencje

Naukowcy zaprojektowali impulsową sieć neuronową — typ modelu komunikującego się za pomocą krótkich impulsów elektrycznych, naśladując prawdziwe neurony. Podzielili ją na dwa główne podsystemy. Podsystem „tonalny” reprezentuje tryby (dur i moll) oraz 24 tonacje używane w muzyce tonalnej Zachodu, zorganizowane w hierarchię przypominającą sposób, w jaki mózg przechowuje abstrakcyjne schematy. Podsystem „pamięci sekwencyjnej” przechowuje rzeczywiste nuty czterogłosowego utworu — ich wysokości i długości trwania — rozdzielone na osobne strumienie odpowiadające sopranu, altowi, tenorowi i basowi. W tych strumieniach wysokość i długość są kodowane przez szeregi małych kolumn neuronów, luźno inspirowane organizacją kory słuchowej i komórkami wrażliwymi na czas, wykrytymi w badaniach nad tempem.

Pozwalanie połączeniom rosnąć wraz z doświadczeniem

Zamiast wszystko zaprogramować z góry, model pozwala na tworzenie nowych synaps między podsystemem tonalnym a pamięcią sekwencyjną, gdy neurony wielokrotnie aktywują się jednocześnie podczas odtwarzania utworu. Naśladuje to sposób, w jaki obwody nerwowe wyłaniają się i zmieniają podczas uczenia się. Gdy połączenie już istnieje, jego siła jest dostosowywana regułą zwaną plastycznością zależną od czasu wyrzutów (spike‑timing‑dependent plasticity): jeśli neuron źródłowy zwykle wystrzeliwuje tuż przed neuronem docelowym, więź się wzmacnia; jeśli porządek jest odwrotny, osłabia się. W toku wielu utworów, w tym ćwiczeń dydaktycznych starannie zaprojektowanych, by uwypuklić konkretne idee harmoniczne, oraz dużego zbioru chorałów J.S. Bacha, wewnętrzne okablowanie sieci stopniowo zaczyna odzwierciedlać, które dźwięki pełnią rolę centralną, wspierającą lub rzadką w każdym trybie i tonacji.

Wnętrze poczucia tonacji maszyny

Aby sprawdzić, czy model rzeczywiście rozwinął oczekiwania podobne do ludzkich, autorzy zmierzyli dwa cechy jego wyuczonych połączeń: ile synaps zgromadziła każda klasa wysokości oraz jak silne stały się te synapsy średnio. Następnie porównali te wzorce ze znanymi profilami tonacyjnymi z psychologii. Zarówno w durze, jak i mollu oraz w wielu indywidualnych tonacjach zgodność była uderzająco wysoka. Dźwięki, które ludzie postrzegają jako „tonikę” lub główne tony wspierające, również pojawiały się jako najsilniej połączone w sieci. Subtelne różnice odzwierciedlały materiał treningowy — na przykład ćwiczenia uczniowskie podkreślające pewne akordy skłaniały sieć do silniejszego wążenia tych dźwięków. Sugeruje to, że model uchwycił zarówno ogólne prawa tonalne, jak i nawyki specyficzne dla korpusu, podobnie jak ludzka enkulturacja.

Komponowanie nowej muzyki w wybranej tonacji

Poproszony o kompozycję, system otrzymuje docelowy tryb i tonację oraz krótki akord startowy. Aktywność w neuronach specyficznych dla danej tonacji następnie przesuwa równowagę w podsystemie pamięci sekwencyjnej poprzez wyuczone połączenia. Rywalizujące neurony nutowe aktywują się, a prosta reguła „zwycięzca bierze wszystko” wybiera kolejną nutę w każdym głosie. Krok po kroku model generuje nowe harmonie czterogłosowe, które pozostają w zamierzonej tonacji, przy jednoczesnym eksplorowaniu zróżnicowanych kształtów melodycznych. W porównaniu z szeregiem popularnych modeli głębokiego uczenia — włącznie z sieciami rekurencyjnymi, transformatorami i modelami dyfuzyjnymi — model impulsowy produkuje utwory, których zakresy wysokości, użycie dźwięków skali i inne statystyki strukturalne bardziej przypominają zbiory referencyjne. W szczególności utrzymuje bardzo wysoki udział dźwięków zgodnych z tonacją, nie popadając przy tym w monotonię.

Co to oznacza dla przyszłych maszyn muzycznych

Dla ogólnego czytelnika kluczowy wniosek jest taki, że sieć inspirowana mózgiem może nauczyć się czegoś bliskiego naszej intuicji tonacji i skali — i tę wiedzę można zobaczyć bezpośrednio w jej okablowaniu. Model nie radzi sobie jeszcze ze wszystkimi bogactwami prawdziwej muzyki, takimi jak zmieniająca się harmonia, rytmiczna różnorodność czy ekspresyjne tempi. Mimo to oferuje konkretny most między teorią muzyki, psychologią a obliczeniami neuronalnymi. Pokazując, że system motywowany biologicznie może generować przekonujące, świadome tonacji harmonie i ujawniać, jak do nich doszedł, praca ta wskazuje drogę ku przyszłej AI tworzącej muzykę, która będzie zarówno bardziej muzykalna, jak i bardziej przejrzysta w sposobie myślenia o dźwięku.

Cytowanie: Liang, Q., Zeng, Y. & Tang, M. A spiking neural network inspired by neuroscience and psychology for Western mode- and key-conditioned music learning and composition. Sci Rep 16, 12956 (2026). https://doi.org/10.1038/s41598-026-43529-1

Słowa kluczowe: sieci neuronowe impulsowe, generowanie muzyki, tonacja i tryb muzyczny, komputacyjna kognicja muzyczna, AI inspirowane mózgiem