Clear Sky Science · it

Le connessioni ricorrenti facilitano il riconoscimento di oggetti occlusi tramite l’«explaining-away»

· Torna all'indice

Come il cervello vede ciò che non c’è

Nella vita quotidiana riconosciamo senza sforzo oggetti parzialmente nascosti — un gatto dietro una tenda, un’auto dietro un albero. Questo articolo indaga come i cervelli, e le reti artificiali ispirate al cervello, riescano a compiere questo prodigio. Gli autori mostrano che i circuiti con circuiti di feedback possono usare l’informazione sull’oggetto occludente per «riempire» mentalmente ciò che sta dietro, rivelando un trucco chiave su cui il nostro sistema visivo potrebbe fare affidamento quando il mondo è disordinato e incompleto.

Figure 1
Figure 1.

Perché gli oggetti nascosti sono un problema difficile

Quando un oggetto è occluso, molte delle sue caratteristiche visive abituali mancano o sono distorte. Un semplice sistema visivo feedforward, in cui l’informazione scorre direttamente dagli occhi ai centri di riconoscimento, deve indovinare l’oggetto nascosto basandosi solo sui frammenti visibili. I cervelli biologici, invece, sono pieni di connessioni ricorrenti — anelli in cui aree superiori comunicano con aree precedenti. Si sospetta da tempo che questi anelli aiutino in compiti difficili come il riconoscimento di oggetti occlusi, ma non era chiaro esattamente quale vantaggio offrano o come modifichino le rappresentazioni interne di ciò che vediamo.

Mettere alla prova reti ispirate al cervello

Gli autori hanno costruito un ampio insieme di reti convoluzionali profonde che imitano stadi del processamento visivo. Alcune erano puramente feedforward, mentre altre avevano anelli ricorrenti o feedback top-down aggiuntivi. Hanno addestrato questi modelli su insiemi di immagini personalizzati in cui un capo di abbigliamento ne copriva parzialmente un altro. Le reti dovevano identificare sia l’oggetto anteriore (occludente) sia quello posteriore (occluso) in diversi compiti. La prestazione dipendeva meno dal fatto che una rete fosse ricorrente o feedforward e più dalla sua “profondità computazionale” — quante fasi sequenziali di elaborazione attraversava un input. Modelli feedforward profondi potevano competere o superare quelli ricorrenti nel compito di riconoscimento di base, mostrando che la ricorrenza non è di per sé superiore.

Un trucco speciale: spiegare l’occludente

Sebbene la profondità fosse il fattore principale per l’accuratezza grezza, le reti ricorrenti mostrarono un vantaggio distintivo nell’uso del contesto. Quando a queste reti veniva chiesto prima di identificare l’oggetto anteriore e solo dopo quello nascosto, la loro prestazione sull’oggetto nascosto migliorava rispetto a quando lo classificavano da solo. Questo schema non compariva nelle reti feedforward ordinarie che producevano entrambe le etichette contemporaneamente. Gli autori interpretano questo come «explaining away»: una volta riconosciuto l’occludente, il sistema può trattare le caratteristiche strane o mancanti nell’immagine come causate da quell’occludente, anziché come prove di un nuovo oggetto bizzarro. In scene 3D più realistiche e in un modello ispirato ai primati (CORnet), la stessa sequenza — oggetto anteriore prima dell’oggetto nascosto — migliorava anch’essa il riconoscimento.

Figure 2
Figure 2.

Lo stesso effetto osservato negli esseri umani

Per verificare se gli umani usano una strategia simile, i ricercatori hanno condotto un esperimento online. I partecipanti vedevano brevemente un singolo oggetto, poi una scena in cui un oggetto ne occludeva un altro e infine dovevano scegliere quale dei due opzioni corrispondeva all’oggetto nascosto. In alcune prove l’oggetto singolo iniziale era lo stesso dell’occludente visto dopo; in altre era non correlato. Quando le persone avevano appena visto l’occludente reale, identificavano l’oggetto nascosto con maggiore precisione e rispondevano più rapidamente, su vari livelli di occlusione. Questo suggerisce che i nostri cervelli, come le reti ricorrenti, traggono vantaggio dal processare prima l’oggetto che blocca e poi usare quella conoscenza per interpretare le prove parziali di ciò che sta dietro.

Ricostruire immagini nascoste dall’interno

Per approfondire i meccanismi, gli autori hanno progettato un modello più ispirato alla biologia, Recon-Net, basato in modo approssimativo sulle interazioni tra corteccia visiva e corteccia prefrontale. Recon-Net riceve un’immagine contenente un oggetto occluso più una vista separata dell’occludente e trasforma iterativamente una rappresentazione interna finché non corrisponde a come dovrebbe apparire la versione non occlusa dell’oggetto nascosto. Sorprendentemente, classificatori addestrati solo su immagini pulite e non occluse riescono a riconoscere le uscite di Recon-Net quasi tanto bene come se fossero stati addestrati direttamente su esempi occlusi. Ciò significa che l’elaborazione ricorrente «ricostituisce» efficacemente un quadro interno pulito dell’oggetto nascosto, anche se i pixel sono mancanti.

Cosa significa per cervelli e macchine

In sintesi, lo studio mostra che i circuiti di feedback non riguardano solo la prestazione grezza, ma un modo qualitativamente diverso di usare il contesto. Le connessioni ricorrenti favoriscono naturalmente l’explaining-away: permettono al sistema visivo di spiegare come un occludente distorce ciò che vediamo e di ripristinare una rappresentazione interna stabile dell’oggetto nascosto. Allo stesso tempo, gli autori rilevano che l’addestramento su immagini fortemente occluse può lasciare in gran parte inalterate le risposte a immagini chiare, facilitando potenzialmente l’apprendimento nei cervelli reali evitando rimaneggiamenti continui. Queste intuizioni indicano un principio comune per neuroscienze e intelligenza artificiale: quando il mondo nasconde informazioni, i sistemi intelligenti non si limitano a guardare più a fondo — inferiscono perché l’informazione manca.

Citazione: Kang, B., Midler, B., Chen, F. et al. Recurrent connections facilitate occluded object recognition by explaining-away. Nat Commun 17, 2225 (2026). https://doi.org/10.1038/s41467-026-68806-5

Parole chiave: riconoscimento di oggetti occlusi, reti neurali ricorrenti, percezione visiva, explaining away, neuroscienze computazionali