Clear Sky Science · de

Neuronale Abstimmung richtet sich dynamisch an Objekt- und Texturmanifolden entlang der visuellen Hierarchie aus

· Zurück zur Übersicht

Wie das Gehirn mehr als nur Dinge erkennt

Wenn Sie einen belebten Straßenabschnitt überblicken, extrahiert Ihr Gehirn augenblicklich Sinn aus einem Durcheinander aus Autos, Gesichtern, Blättern und Schatten. Einzelne Nervenzellen feuern dabei jedoch nicht nur für saubere Kategorien wie „Auto“ oder „Gesicht“. Sie reagieren oft auf viele scheinbar unzusammenhängende Bilder, was Forschende rätseln lässt, worauf diese Zellen tatsächlich ansprechen. Diese Studie nutzt fortgeschrittene, Bilder erzeugende Künstliche Intelligenz, um einzelnen Neuronen zu erlauben, ihre „Lieblingsbilder“ zu „entwerfen“ und zeigt so, wie das Gehirn Sensitivität für feine Texturen mit der Erkennung ganzer Objekte ausbalanciert.

Zwei verschiedene visuelle Welten

Die Forschenden arbeiteten mit zwei leistungsfähigen Bildgeneratoren, die jeweils einen anderen visuellen „Akzent“ setzen. Der eine, DeePSim genannt, ist besonders gut darin, reichhaltige Texturen und Muster zu produzieren, liefert aber oft Bilder ohne klar erkennbare Objekte. Der andere, BigGAN, wurde darauf trainiert, scharfe, fotorealistische Bilder mit deutlich erkennbaren Gegenständen wie Tieren und Werkzeugen zu erzeugen. Indem sie diese Generatoren als alternative Zerlegungen des Bildraums behandelten, konnten die Wissenschaftler fragen, ob Nervenzellen eher mit einer texturzentrierten oder einer objektzentrierten Sicht der Welt übereinstimmen.

Neuronen wählen ihre eigenen Bilder

Bei Makaken zeichneten die Forschenden die Aktivität von Neuronen entlang des ventralen visuellen Pfads auf — einer Kette von Hirnarealen, die hilft, rohe Sinneseindrücke in Objekterkennung zu überführen. Sie konzentrierten sich auf drei Stationen: V1 (früher visueller Kortex), V4 (ein intermediäres Areal) und PIT (posteriorer inferotemporaler Kortex, ein hochrangiges Areal). Während der Experimente steuerte die Feuerungsrate jeder Zelle eine Closed-Loop-Suche durch den Bildraum jedes Generators. In schnellen Sequenzen wurden dem Neuron synthetische Bilder gezeigt; jene Bilder, die mehr Spikes auslösten, lenkten den Generator in der nächsten Runde hin zu ähnlichen Bildern. Über viele Generationen erzeugte diese „Evolution“ stark aktivierende Bilder sowohl im Textur- als auch im Objektbereich.

Figure 1
Figure 1.

Versteckte lokale Merkmale, nicht nur ganze Objekte

Erstaunlicherweise wirkten die endgültigen Bilder, wenn ein Neuron in der texturorientierten und in der objektorientierten Sphäre optimiert worden war, global oft unterschiedlich, teilten aber ein spezifisches lokales Motiv — etwa eine gebogene Kante oder einen farbigen Fleck — an ähnlicher Stelle. Analysen mit tiefen neuronalen Netzwerken bestätigten, dass diese gepaarten Bilder sich im Merkmalsraum stärker ähnelten als Bilder, die für verschiedene Neuronen optimiert worden waren. Räumliche Karten zeigten, dass die Aktivität der Zelle am besten durch bestimmte Regionen innerhalb der Bilder vorhergesagt wurde, was darauf hindeutet, dass viele Zellen auf wiederkehrende lokale Bausteine reagieren, die in sehr unterschiedlichen Szenen auftauchen können, statt auf eine einzige, starre Objektvorlage.

Verschiebung vom Schwerpunkt auf Texturen hin zu Objekten

Das Team fragte dann, wie leicht Neuronen in jedem Hirnareal innerhalb der jeweiligen Bildräume zu einer starken Reaktion „aufsteigen“ konnten. In frühen Bereichen V1 und V4 gelang die Optimierung im Texturbereich häufiger, sie stieg schneller und erreichte höhere Spitzenantworten als im Objektraum — ein klarer Textur-Bias. In PIT hingegen performten Neuronen in beiden Bereichen gut: Sie konnten sowohl durch texturähnliche als auch durch objektähnliche synthetische Bilder stark getrieben werden, und die Optimierungsgeschwindigkeiten wurden vergleichbar. Die Betrachtung der Antwortzeit brachte einen weiteren Aspekt: In PIT verstärkten texturbasierte Bilder tendenziell frühe Antworten, während objektbasierte Bilder später und in anhaltenderem Feuern stärker engagierten, was darauf hindeutet, dass objektzentrierte Verarbeitung zeitlich langsamer entsteht.

Präferenzkarten im Objekt-Raum

Um die feine Gestalt dieser Präferenzen zu untersuchen, führten die Forschenden „Hessian-Tuning“-Experimente im latenten Raum des Objektgenerators durch. Nachdem ein Neuron eine starke Reaktion auf ein optimiertes, objektähnliches Bild erreicht hatte, sampelten sie systematisch Bilder entlang vieler Richtungen um diesen Punkt. Wenn die Optimierung wirklich einen hohen Gipfel gefunden hatte, bildete die Feuerung der Zelle typischerweise glockenförmige Kurven entlang dieser Richtungen, die anstiegen und dann fielen, wenn sich die Bilder vom bevorzugten entfernten. Wenn die Optimierung keinen starken Gipfel erreicht hatte, sahen Tuning-Kurven oft eher wie Rampen aus. Das zeigt, dass der Eindruck, ein Neuron habe einen schmalen Favoriten oder eine graduelle Präferenz, davon abhängen kann, wie gründlich wir den enormen Raum möglicher Bilder durchsuchen.

Figure 2
Figure 2.

Was das für das Verständnis des Sehens bedeutet

Insgesamt zeichnet die Studie das Bild eines flexiblen ventralen visuellen Pfads, der anfänglich Texturen bevorzugt und im Verlauf zunehmend ebenso stark die Objektstruktur erfasst. Anstatt ganze Objekte als unteilbare Einheiten zu codieren, scheinen Neuronen wiederverwendbare lokale Merkmale zu priorisieren, die zu vielen verschiedenen Szenen kombiniert werden können. Hochrangige PIT-Neuronen können sowohl mit einer texturbasierten als auch mit einer objektbasierten Beschreibung der visuellen Welt in Einklang stehen — eine Vielseitigkeit, die aktuelle künstliche Netzwerke noch schwer nachahmen. Für eine allgemeine Leserschaft lautet die Kernbotschaft: Unsere Gehirne sind nicht einfach „Objektdetektoren“; sie sind ausgeklügelte Muster-Maschinen, die Bedeutung sowohl aus feinkörnigen Texturen als auch aus ganzen Formen lesen können und dabei Raum und Zeit variabel gewichten, um die reiche visuelle Erfahrung zu ermöglichen, die wir für selbstverständlich halten.

Zitation: Wang, B., Ponce, C.R. Neuronal tuning aligns dynamically with object and texture manifolds across the visual hierarchy. Nat Neurosci 29, 864–875 (2026). https://doi.org/10.1038/s41593-026-02207-1

Schlüsselwörter: visueller Kortex, Objekterkennung, Texturverarbeitung, generative Modelle, neurale Abstimmung