Clear Sky Science · it

Il tuning neuronale si allinea dinamicamente con i manifold di oggetti e texture lungo la gerarchia visiva

· Torna all'indice

Come il cervello vede più che semplici oggetti

Quando dai uno sguardo a una strada trafficata, il tuo cervello estrae istantaneamente significato da un groviglio di auto, volti, foglie e ombre. Ma le singole cellule cerebrali non si attivano soltanto per categorie nette come “auto” o “volto”. Spesso rispondono a molte immagini non correlate, lasciando gli scienziati perplessi su cosa queste cellule applichino effettivamente. Questo studio utilizza intelligenza artificiale avanzata generatrice di immagini per lasciare che singoli neuroni “disegnino” le loro immagini preferite, rivelando come il cervello equilibri la sensibilità per texture dettagliate con il riconoscimento di oggetti interi.

Due diversi mondi visivi

I ricercatori hanno lavorato con due potenti generatori di immagini, ciascuno con un diverso “accento” visivo. Uno, chiamato DeePSim, è particolarmente bravo a produrre texture e motivi ricchi, ma le sue immagini spesso mancano di oggetti chiari e riconoscibili. L’altro, BigGAN, è addestrato a creare immagini nitide, foto-simili, piene di elementi distinti come animali e strumenti. Considerando questi generatori come modi alternativi di suddividere lo spazio delle immagini possibili, il team ha potuto chiedersi se le cellule cerebrali si allineino più con una visione centrata sulle texture o su una centrata sugli oggetti.

Lasciare che i neuroni scelgano le proprie immagini

Nei macachi, gli scienziati hanno registrato l’attività di neuroni lungo la via visiva ventrale — una catena di aree cerebrali che aiuta a trasformare la vista grezza in riconoscimento degli oggetti. Si sono concentrati su tre stazioni: V1 (corteccia visiva precoce), V4 (un’area intermedia) e PIT (corteccia inferotemporale posteriore, area di alto livello). Durante gli esperimenti, il tasso di scarica di ciascun neurone guidava una ricerca in loop chiuso attraverso lo spazio di immagini di ciascun generatore. In sequenze rapide, al neurone venivano mostrate immagini sintetiche; quelle che inducevano più spike spingevano il generatore verso immagini simili nel turno successivo. Nel corso di molte generazioni, questa “evoluzione” produceva immagini altamente attivanti sia nello spazio delle texture sia in quello degli oggetti.

Figure 1
Figure 1.

Caratteristiche locali nascoste, non solo oggetti interi

In modo sorprendente, quando un neurone ottimizzava immagini nello spazio focalizzato sulle texture e nello spazio focalizzato sugli oggetti, le immagini finali spesso apparivano globalmente diverse ma condividevano un particolare motivo locale — come un bordo curvo o una macchia colorata — in una posizione simile. Analisi con reti neurali profonde hanno confermato che queste immagini corrispondenti erano più simili, nello spazio delle feature, rispetto alle immagini ottimizzate per neuroni diversi. Mappe spaziali hanno mostrato che l’attività del neurone era meglio prevista da regioni particolari all’interno delle immagini, suggerendo che molte cellule rispondono a blocchi costitutivi locali ricorrenti che possono apparire in scene molto diverse, piuttosto che a un singolo template rigido di oggetto.

Spostamento dell’equilibrio dalle texture agli oggetti

Il team si è poi chiesto quanto facilmente i neuroni in ciascuna area cerebrale potessero “arrampicarsi” fino a una forte risposta in ciascuno spazio di immagini. Nelle aree precoci V1 e V4, l’ottimizzazione nello spazio delle texture riusciva più spesso, saliva più rapidamente e raggiungeva risposte di picco più alte che nello spazio degli oggetti, rivelando un chiaro bias verso le texture. Nel PIT, tuttavia, i neuroni performavano bene in entrambi gli spazi: potevano essere fortemente spinti sia da immagini sintetiche simili a texture sia da immagini simili a oggetti, e le velocità di ottimizzazione diventavano comparabili. L’analisi dei tempi di risposta ha aggiunto un’altra sfumatura. Nel PIT, le immagini basate sulle texture tendevano a potenziare risposte precoci, mentre le immagini basate sugli oggetti coinvolgevano più fortemente una scarica successiva e sostenuta, suggerendo che l’elaborazione centrata sugli oggetti emergerebbe più lentamente nel tempo.

Mappe di preferenza nello spazio degli oggetti

Per sondare la forma fine di queste preferenze, i ricercatori hanno condotto esperimenti di “Hessian tuning” nello spazio latente del generatore di oggetti. Dopo che un neurone aveva raggiunto una forte risposta a un’immagine ottimizzata di tipo oggetto, hanno campionato sistematicamente immagini lungo molte direzioni intorno a quel punto. Quando l’ottimizzazione aveva veramente trovato un picco alto, la scarica del neurone tipicamente formava curve a campana lungo queste direzioni, salendo e poi scendendo man mano che le immagini si allontanavano da quella preferita. Quando l’ottimizzazione non aveva raggiunto un picco forte, le curve di tuning spesso sembravano più simili a rampe. Questo mostra che il fatto che un neurone appaia avere un favorito stretto o una preferenza graduale può dipendere da quanto approfonditamente esploriamo l’enorme spazio delle immagini possibili.

Figure 2
Figure 2.

Cosa significa per la comprensione della visione

Nel complesso, lo studio dipinge la via visiva ventrale come un sistema flessibile che all’inizio favorisce le texture e progressivamente acquista una presa altrettanto forte sulla struttura degli oggetti. Piuttosto che codificare gli oggetti interi come unità indivisibili, i neuroni sembrano dare priorità a caratteristiche locali riutilizzabili che possono essere combinate in molte scene diverse. I neuroni di alto livello del PIT possono allinearsi sia a una descrizione del mondo visivo basata sulle texture sia a una basata sugli oggetti, una versatilità che le reti artificiali attuali faticano ancora a eguagliare. Per un osservatore non specialistico, il messaggio chiave è che i nostri cervelli non sono semplicemente “rilevatori di oggetti”: sono motori sofisticati di pattern che sanno leggere il significato tanto dalle texture fini quanto dalle forme globali, spostando l’enfasi nello spazio e nel tempo per sostenere la ricca esperienza visiva che diamo per scontata.

Citazione: Wang, B., Ponce, C.R. Neuronal tuning aligns dynamically with object and texture manifolds across the visual hierarchy. Nat Neurosci 29, 864–875 (2026). https://doi.org/10.1038/s41593-026-02207-1

Parole chiave: corteccia visiva, riconoscimento degli oggetti, elaborazione delle texture, modelli generativi, tuning neuronale