Clear Sky Science · pl

Strojenie neuronów dynamizuje się względem manifoldów obiektów i tekstur w hierarchii wzrokowej

· Powrót do spisu

Jak mózg widzi coś więcej niż tylko rzeczy

Kiedy rzucasz okiem na tętniącą życiem ulicę, twój mózg natychmiast wyławia sens z kakofonii samochodów, twarzy, liści i cieni. Jednak pojedyncze komórki mózgowe nie aktywują się jedynie dla przejrzystych kategorii, takich jak „samochód” czy „twarz”. Często reagują na wiele niespowinowaconych obrazów, co zastanawia naukowców, o co te neurony naprawdę „dbają”. W tym badaniu wykorzystano zaawansowaną sztuczną inteligencję generującą obrazy, aby pozwolić pojedynczym neuronom „projektować” własne ulubione obrazy — ujawniając, jak mózg równoważy wrażliwość na drobne tekstury z rozpoznawaniem całych obiektów.

Dwa różne wizualne światy

Naukowcy pracowali z dwoma potężnymi generatorami obrazów, z których każdy miał inny „akcent” wizualny. Jeden, nazwany DeePSim, szczególnie dobrze tworzy bogate tekstury i wzory, ale jego obrazy często nie mają wyraźnych, rozpoznawalnych obiektów. Drugi, BigGAN, jest trenowany do generowania ostrych, fotopodobnych zdjęć wypełnionych wyraźnymi przedmiotami, takimi jak zwierzęta czy narzędzia. Traktując te generatory jako alternatywne sposoby dzielenia przestrzeni możliwych obrazów, zespół mógł sprawdzić, czy komórki mózgowe bardziej odpowiadają widzeniu zorientowanemu na tekstury, czy na obiekty.

Pozwalając neuronom wybierać własne obrazy

U makaków naukowcy rejestrowali aktywność neuronów wzdłuż brzusznej ścieżki wzrokowej — łańcucha obszarów mózgu, które przetwarzają surowe wrażenia wzrokowe na rozpoznawanie obiektów. Skoncentrowali się na trzech stacjach: V1 (wczesna kora wzrokowa), V4 (obszar pośredni) i PIT (tylny kora inferotemporalna, obszar wysokiego poziomu). Podczas eksperymentów częstość wyładowań pojedynczego neuronu sterowała zamkniętym pętlą przeszukiwaniem przestrzeni obrazów każdego generatora. W szybkich sekwencjach neuronowi pokazywano obrazy syntetyczne; te, które wywoływały więcej wyładowań, kierowały generator w stronę podobnych obrazów w następnej rundzie. Po wielu pokoleniach taka „ewolucja” wytworzyła silnie aktywujące obrazy zarówno w przestrzeni tekstur, jak i obiektów.

Figure 1
Figure 1.

Ukryte lokalne cechy, nie tylko całe obiekty

Zaskakująco, gdy neuron optymalizował obrazy w przestrzeni skoncentrowanej na teksturach i w przestrzeni zorientowanej na obiekty, końcowe obrazy często wyglądały globalnie inaczej, ale miały wspólny, specyficzny lokalny motyw — na przykład zakrzywione krawędzie lub kolorową plamę — w podobnym miejscu. Analizy przy użyciu głębokich sieci neuronowych potwierdziły, że te sparowane obrazy były bardziej podobne w przestrzeni cech niż obrazy zoptymalizowane dla różnych neuronów. Mapy przestrzenne pokazały, że aktywność neuronu była najlepiej przewidywana przez konkretne regiony w obrazach, co sugeruje, że wiele komórek reaguje na powtarzalne lokalne elementy budulcowe pojawiające się w bardzo różnych scenach, zamiast na pojedynczy, sztywny wzorzec obiektu.

Przesuwająca się równowaga od tekstur do obiektów

Zespół następnie zbadał, jak łatwo neurony w każdym obszarze mózgu mogą „wspiąć się” do silnej odpowiedzi w każdej przestrzeni obrazów. W obszarach wczesnych, V1 i V4, optymalizacja w przestrzeni tekstur powiodła się częściej, przebiegała szybciej i osiągała wyższe szczytowe odpowiedzi niż w przestrzeni obiektów, ujawniając wyraźne uprzywilejowanie tekstur. W PIT neurony radziły sobie jednak dobrze w obu przestrzeniach: można je było silnie pobudzić zarówno teksturowymi, jak i obiektopodobnymi syntetycznymi obrazami, a prędkości optymalizacji stały się porównywalne. Analiza czasowania odpowiedzi dodała kolejny niuans. W PIT obrazy oparte na teksturach miały tendencję do zwiększania wczesnych odpowiedzi, podczas gdy obrazy oparte na obiektach silniej angażowały późniejsze, utrzymane wyładowania, co sugeruje, że przetwarzanie skoncentrowane na obiektach pojawia się wolniej w czasie.

Mapy preferencji w przestrzeni obiektów

Aby zgryźć drobne kształty tych preferencji, badacze przeprowadzili eksperymenty „strojenia Hessiana” w przestrzeni utajonej generatora obiektów. Gdy neuron osiągnął silną odpowiedź na zoptymalizowany, obiektopodobny obraz, systematycznie próbowali próbek obrazów w wielu kierunkach wokół tego punktu. Gdy optymalizacja rzeczywiście znalazła wysoki szczyt, aktywność neuronu zwykle tworzyła krzywe w kształcie dzwonu wzdłuż tych kierunków — rosnąc, a potem opadając, gdy obrazy oddalały się od preferowanego. Gdy optymalizacja nie osiągnęła mocnego szczytu, krzywe strojenia częściej przypominały rampy. To pokazuje, że to, czy neuron wydaje się mieć wąskie upodobanie, czy łagodną preferencję, może zależeć od tego, jak gruntownie przeszukamy ogromną przestrzeń możliwych obrazów.

Figure 2
Figure 2.

Co to znaczy dla rozumienia widzenia

Podsumowując, badanie przedstawia brzuszną ścieżkę wzrokową jako elastyczny system, który początkowo faworyzuje tekstury, a stopniowo zyskuje równie silną reprezentację struktury obiektów. Zamiast kodować całe obiekty jako niepodzielne jednostki, neurony wydają się priorytetowo traktować wielokrotnego użytku lokalne cechy, które można łączyć w różne sceny. Neurony wysokopoziomowe w PIT mogą dopasować się zarówno do opisu świata opartego na teksturach, jak i na obiektach — uniwersalność, której współczesne sieci sztuczne wciąż mają problem dorównać. Dla nieprofesjonalnego obserwatora kluczowy wniosek jest taki, że nasze mózgi nie są po prostu „detektorami obiektów”: są wyrafinowanymi maszynami do rozpoznawania wzorców, które potrafią odczytywać sens zarówno z drobnych tekstur, jak i z całych kształtów, zmieniając akcent w przestrzeni i czasie, by wspierać bogate doświadczenie wzrokowe, jakie uważamy za oczywiste.

Cytowanie: Wang, B., Ponce, C.R. Neuronal tuning aligns dynamically with object and texture manifolds across the visual hierarchy. Nat Neurosci 29, 864–875 (2026). https://doi.org/10.1038/s41593-026-02207-1

Słowa kluczowe: kora wzrokowa, rozpoznawanie obiektów, przetwarzanie tekstur, modele generatywne, strojenie neuronalne