Clear Sky Science · it

Ottenere una visione più simile a quella umana tramite l'allineamento rappresentazionale con EEG umano

· Torna all'indice

Perché questa ricerca è importante

L'intelligenza artificiale moderna può riconoscere oggetti nelle foto con precisione quasi umana, ma non “vede” ancora il mondo come fa il nostro cervello. Questo studio introduce un nuovo modo di affinare i sistemi di visione artificiale usando segnali cerebrali registrati da volontari, avvicinando l'IA a una comprensione visiva più simile a quella umana. Modellando direttamente una rete di visione con l'attività cerebrale umana, il lavoro suggerisce la possibilità di future IA che non siano solo potenti, ma anche organizzate in modo più simile alla nostra mente.

Figure 1
Figura 1.

Insegnare alle macchine con le onde cerebrali

Gli autori si concentrano su un'idea semplice ma audace: invece di addestrare i modelli di visione solo con immagini e etichette, perché non mostrare anche come il cervello umano risponde a quelle immagini? Usano l'elettroencefalografia (EEG), che misura minuscole variazioni di potenziale sul cuoio capelluto mentre le persone guardano immagini. L'EEG è non invasiva, relativamente economica e può essere raccolta rapidamente su molte prove. Da dieci volontari, il team ha utilizzato un ampio dataset aperto in cui ogni persona ha visto decine di migliaia di immagini naturali di oggetti mentre i loro segnali EEG venivano registrati nei primi due decimi di secondo dopo la comparsa di ciascuna immagine.

Costruire una rete di visione allineata al cervello

Partendo da un modello di visione profonda esistente chiamato CORnet-S, i ricercatori hanno aggiunto un modulo aggiuntivo “immagine-verso-cervello”. Quando un'immagine entra nella rete, il modello svolge ora due compiti contemporaneamente: indovina quale oggetto è presente e cerca di prevedere il pattern EEG che un essere umano ha mostrato per la stessa immagine. Per farlo, segnali da diversi strati interni della rete vengono convogliati nel modulo EEG, che impara a generare una breve serie temporale corrispondente ai dati umani. Durante l'addestramento, il modello viene premiato sia per il riconoscimento corretto degli oggetti sia per la produzione di attività simile all'EEG, inducendo le sue caratteristiche interne a somigliare a quelle del sistema visivo umano.

Più vicino all'attività cerebrale attraverso i metodi

Dopo aver addestrato dieci di queste “ReAlnet” (una per soggetto), il team si è chiesto se questi modelli fossero effettivamente diventati più simili al cervello. Hanno confrontato il pattern di relazioni tra le immagini all'interno del modello con il pattern osservato nell'EEG umano, usando una tecnica chiamata analisi di similarità rappresentazionale. In tutti gli strati principali e nei punti temporali tra 50 e 200 millisecondi, le ReAlnet erano costantemente più simili all'EEG umano rispetto al CORnet-S originale e ad altri modelli standard, con guadagni massimi fino a circa il 6% e miglioramenti relativi fino al 40%. Importante, il vantaggio persisteva anche per nuove categorie di oggetti mai usate durante l'addestramento, mostrando che l'allineamento si generalizza oltre il set di addestramento.

Figure 2
Figura 2.

Collegarsi a scansioni cerebrali e comportamento

Una domanda chiave è se i modelli abbiano semplicemente appreso idiosincrasie dell'EEG o catturato qualcosa di più generale sulla visione umana. Per verificarlo, gli autori hanno usato un diverso dataset di neuroimmagine, in cui altri volontari hanno visto immagini naturali, forme astratte e lettere dentro uno scanner MRI. Anche se le ReAlnet non avevano mai visto questi dati, i loro pattern interni corrispondevano più da vicino ai segnali di diverse regioni visive del cervello rispetto al modello originale. Inoltre, il grado di miglioramento per EEG e per MRI era fortemente correlato tra i modelli, suggerendo che è stata rafforzata una rappresentazione di base condivisa. I ricercatori hanno anche valutato quanto spesso modelli e umani commettono errori simili in compiti di riconoscimento impegnativi. Anche qui, le ReAlnet si sono allineate meglio al comportamento umano rispetto ai modelli di riferimento.

Visione personalizzata e generale simile al cervello

Poiché ogni ReAlnet è stata sintonizzata sull'EEG di una singola persona, gli autori hanno potuto esplorare differenze individuali. Hanno scoperto che i modelli personalizzati divergevano tra loro maggiormente negli strati più profondi, riecheggiando come le differenze tra le persone aumentino dalle aree visive precoci a quelle di ordine superiore. Eppure il modello di ciascuna persona generalizzava ancora meglio agli EEG di altre persone rispetto al baseline non allineato, mostrando che catturava sia una struttura condivisa sia aspetti specifici del soggetto. Il team ha anche esteso il loro framework a una diversa architettura, ResNet18, e ha osservato nuovamente un miglioramento dell'allineamento con EEG, MRI e (in misura minore) comportamento, suggerendo che l'approccio è flessibile e non vincolato a un singolo design di modello.

Cosa significa per la comprensione di tutti i giorni

Per un non specialista, il messaggio principale è che ora è possibile sintonizzare algoritmi di visione direttamente usando registrazioni non invasive del cervello umano. Le ReAlnet risultanti non si limitano a riconoscere oggetti; organizzano le informazioni in modi che rispecchiano più da vicino i nostri percorsi visivi, attraverso segnali elettrici cerebrali, scansioni MRI e persino modelli di errori nei compiti di riconoscimento. Sebbene i miglioramenti siano modesti e rimangano molte sfide tecniche, questo lavoro offre un passo concreto verso sistemi di IA i cui processi interni sono plasmati dal cervello umano stesso, potenzialmente portando in futuro a tecnologie più robuste, interpretabili e personalizzate.

Citazione: Lu, Z., Wang, Y. & Golomb, J.D. Achieving more human brain-like vision via human EEG representational alignment. Commun Biol 9, 463 (2026). https://doi.org/10.1038/s42003-026-09685-w

Parole chiave: IA allineata al cervello, visione EEG, riconoscimento di oggetti, neuroscienze computazionali, percezione simile a quella umana