Clear Sky Science · pl

Ludzie mogą używać pozytywnych i negatywnych korelacji spektrotemporalnych do wykrywania narastającej i opadającej wysokości dźwięku

2026-02-09 · Powrót do spisu

Jak nasze mózgi słyszą dźwięki poruszające się w górę i w dół

Kiedy rozpoznajesz pytanie w czyimś głosie lub podążasz za melodią ulubionej piosenki, twoje uszy i mózg śledzą, jak wysokość dźwięku narasta i opada w czasie. To badanie zadaje zaskakujące pytanie: czy nasze mózgi robią to, stosując podobne „triki” wykrywania ruchu, jakie wykorzystują nasze oczy do widzenia ruchu? Poprzez staranne zaprojektowanie nowych dźwięków i testów obrazowania mózgu autorzy pokazują, że ludzie potrafią słyszeć ruch wysokości nawet w dźwiękach pozbawionych wyraźnych nut, ujawniając nowy rodzaj iluzji słuchowej i wspólny algorytm między słyszeniem a wzrokiem.

Słyszenie ruchu bez wyraźnych nut

W codziennych dźwiękach narastanie i opadanie wysokości często związane jest z wyraźną „częstotliwością podstawową” — podstawową nutą, którą zaśpiewalibyśmy lub zagrali na instrumencie. Autorzy stworzyli jednak specjalne dźwięki, które celowo pozbawione były tej oczywistej informacji o wysokości. Zamiast stabilnych tonów użyli gęstych chmur wielu częstotliwości, których głośność zmieniała się w skoordynowany sposób w czasie. Te wzory tworzyły lokalne zależności między sąsiednimi częstotliwościami i momentami w czasie, znane jako korelacje spektrotemporalne. Słuchacze słuchali każdego dźwięku przez dwie sekundy i po prostu zgłaszali, czy ogólnie wydawało się, że wysokość idzie w górę czy w dół.

Nowa iluzja słuchowa, która odwraca kierunek

Kiedy sąsiednie częstotliwości miały tendencję do jednoczesnego pogłaśniania lub ściszania wzdłuż ukośnej wznoszącej się na siatce częstotliwość–czas, ludzie konsekwentnie raportowali, że wysokość dźwięku rośnie. Gdy ukośna wskazywała w dół, mówili o opadającej wysokości. Zaskoczenie pojawiło się, gdy badacze odwrócili wzór: sprawili, że sąsiednie częstotliwości na przemian się wzmacniały i osłabiały — „negatywna” korelacja. W takim przypadku wzór pochyły w górę był słyszany jako opadający, a wzór pochyły w dół jako narastający. To jest odpowiednik znanej iluzji wizualnej zwanej „reverse-phi”, w której poruszający się wzór, który ciągle zmienia kontrast, wydaje się poruszać w przeciwnym kierunku. Siła odczuwanego ruchu wysokości zależała płynnie od intensywności obecnych korelacji, a efekt działał nawet wtedy, gdy informacja była rozdzielona między obie uszy, co pokazuje, że mózg łączy sygnały z obu stron.

Dostrajanie się do drobnych przesunięć w częstotliwości i czasie

Aby zbadać szczegóły tego mechanizmu, zespół przeszedł od gęstego szumu do rzadkich dźwięków „pip”: krótkich sygnałów rozrzuconych w częstotliwości i czasie. Stworzyli pary pipów rozdzielonych małym skokiem częstotliwości i krótkim opóźnieniem, ponownie kontrolując, czy obie były głośne jednocześnie, ciche jednocześnie, czy przeciwne pod względem głośności. Poprzez zmienianie opóźnienia i wielkości skoku częstotliwości odkryli, że ludzie byli najbardziej wrażliwi na kierunek wysokości, gdy drugi pip następował około 40 milisekund później i przesuwał się jedynie o około jedną piętnastą oktawy — bardzo mała zmiana. Co istotne, słuchacze reagowali nie tylko na pary głośne–głośne, ale na wszystkie cztery kombinacje głośny–cichy. Słyszeli również ruch w bardziej złożonych wzorach z trzema pipami, które nie zawierały prostych parowych regularności, co odzwierciedla podobne odkrycia w widzeniu zwierząt. Wszystko to wskazuje na system, który odczytuje drobnoziarniste lokalne wzory zmian zamiast śledzić długo trwające tony.

Ślady mózgowe przeciwnych detektorów wysokości

Następnie badacze zapytali, jak ta obliczeniowa procedura może być zorganizowana w mózgu. Używając funkcjonalnego rezonansu magnetycznego zmierzyli aktywność w korze słuchowej, gdy ludzie słuchali prostych tonów narastających, tonów opadających lub mieszanki obu odtwarzanych jednocześnie. Jeśli mózg używa osobnych zestawów neuronów dostrojonych do ruchu wysokości w górę i w dół, które wzajemnie się przeciwstawiają, to połączony bodziec powinien częściowo znosić ich aktywność. Dokładnie to zaobserwowali: kilka obszarów po obu stronach kory słuchowej reagowało silnie na same tony narastające i na same tony opadające, ale słabiej na mieszankę. Ten „antagonistyczny” wzorzec dobrze odpowiada obwodom przetwarzania ruchu znanym z systemu wzrokowego i naturalnie wyjaśnia, dlaczego odwrócenie korelacji w dźwiękach odwraca postrzegany kierunek.

Od laboratoryjnych iluzji do codziennej mowy i muzyki

Na koniec zespół zapytał, czy te abstrakcyjne wzory mają znaczenie w życiu codziennym. Analizując godziny nagrań mowy po angielsku i po mandaryńsku, skonwertowali każde nagranie na mapę czas–częstotliwość i zmierzyli, jak tony poruszają się w górę lub w dół, używając algorytmu podobnego do tych stosowanych do wykrywania ruchu wizualnego. Następnie poszukiwali tych samych czterech lokalnych wzorów intensywności badanych w laboratorium. W obu językach wzory, w których sąsiednie częstotliwości zmieniały się wspólnie, miały tendencję do pokrywania się z narastającymi lub opadającymi tonami, podczas gdy wzory naprzemienne przewidywały ruch w przeciwnym kierunku. Innymi słowy, zarówno pozytywne, jak i negatywne korelacje spektrotemporalne w naturalnej mowie wiarygodnie sygnalizują, jak zmienia się wysokość dźwięku. Wyniki sugerują, że wrażliwość systemu słuchowego na te subtelne lokalne wzory — w tym te, które tworzą iluzje w laboratorium — nie jest dziwactwem, lecz efektywnym sposobem dekodowania znaczenia i melodii z złożonych pejzaży dźwiękowych codziennego życia.

Cytowanie: Vaziri, P.A., McDougle, S.D. & Clark, D.A. Humans can use positive and negative spectrotemporal correlations to detect rising and falling pitch. Nat Hum Behav 10, 417–433 (2026). https://doi.org/10.1038/s41562-025-02371-7

Słowa kluczowe: percepcja wysokości dźwięku, ruch słuchowy, intonacja mowy, kora słuchowa, iluzje sensoryczne