Clear Sky Science · it

Il contesto narrativo sposta lo sguardo dalla salienza visiva a quella semantica

· Torna all'indice

Perché i nostri occhi non seguono solo l’oggetto più luminoso

Quando guardi un’immagine, i tuoi occhi saltano in rapidi movimenti, posandosi brevemente su parti diverse della scena. Potrebbe sembrare ovvio che lo sguardo sia attirato da ciò che è più colorato o ha maggiore contrasto. Ma nella vita quotidiana seguiamo solitamente delle storie—guardiamo un film, sfogliamo fumetti, scorriamo foto—cercando di capire cosa succede. Questo studio pone una domanda semplice ma potente: man mano che una storia si dipana, i nostri occhi continuano a inseguire gli elementi più appariscenti, oppure si spostano verso le parti che contano per comprendere la trama?

Figure 1
Figure 1.

Guardare storie illustrate senza parole

I ricercatori hanno invitato adulti a osservare brevi storie per immagini senza parole su un ragazzo e i suoi amici animali. Ogni storia era composta da 24 immagini disegnate a mano che, nel loro ordine originale, formano un chiaro inizio, sviluppo e finale. Talvolta i partecipanti vedevano le immagini in questa sequenza corretta, in modo che potessero costruire una storia coerente nella mente. Altre volte, le stesse immagini venivano mescolate in ordine casuale, confondendo la trama pur mantenendo identico il contenuto visivo. Per tutta la durata dell’esperimento, alle persone veniva semplicemente detto di guardare liberamente le immagini mentre i loro movimenti oculari venivano registrati con apparecchiature di tracciamento ad alta precisione.

Misurare ciò che è visivamente appariscente rispetto a ciò che è significativo

Per capire quali aspetti di ciascuna immagine attirassero gli occhi, il team ha confrontato due tipi molto diversi di “importanza”. In primo luogo, hanno stimato la salienza visiva—quanto un oggetto risalta unicamente per le sue proprietà dell’immagine, come contrasto e contorni—usando modelli avanzati di computer vision che prevedono dove le persone tendono a guardare in singole immagini. In secondo luogo, hanno stimato la salienza semantica—quanto un oggetto è importante per comprendere la storia. A questo scopo, volontari separati hanno scritto brevi narrazioni descrivendo ogni sequenza di immagini in ordine coerente. Un grande modello linguistico (un moderno sistema di IA addestrato su testo) è stato poi usato per calcolare quanto fosse sorprendente ciascuna parola in queste narrazioni, dato il contesto precedente, e quei punteggi di sorpresa sono stati mappati su oggetti specifici nelle immagini (per esempio, la rana gelosa che improvvisamente morde un’altra rana).

Come l’ordine della storia cambia dove e quando guardiamo

Con queste misure a disposizione, gli autori hanno esaminato due aspetti dello sguardo: quanto spesso ciascun oggetto veniva fissato e quanto rapidamente attirava il primo sguardo. In tutte le condizioni, gli oggetti altamente salienti visivamente venivano, non sorprendentemente, osservati di più e prima rispetto ad altre parti dell’immagine. Ma il risultato chiave è emerso confrontando l’ordine coerente con quello mescolato. Quando le immagini formavano una sequenza significativa, gli osservatori guardavano relativamente più spesso gli oggetti semanticamente importanti—quelli che portavano peso narrativo—rispetto a quando le stesse immagini erano mescolate. Tendevano inoltre a guardare questi oggetti significativi più precocemente nel tempo all’interno di ciascun periodo di visualizzazione di cinque secondi. Al contrario, il vantaggio degli oggetti visivamente appariscenti non aumentava nelle storie coerenti; se proprio, la loro dominanza iniziale si attenuava più rapidamente quando si poteva costruire una narrazione sensata.

Corso temporale dello spostamento dell’attenzione

Lo studio ha anche tracciato come questo equilibrio cambiava nel corso dei successivi movimenti oculari. Le primissime fissazioni dopo la comparsa di una nuova immagine erano fortemente guidate dalla salienza visiva, indipendentemente dal contesto: gli occhi si dirigevano inizialmente verso le parti fisicamente più prominenti della scena. Ma con il proseguire dell’osservazione, specialmente dopo diverse fissazioni, emerse una divergenza. Nelle sequenze mescolate, le persone continuavano a privilegiare le regioni visivamente salienti. Nelle sequenze coerenti, il loro sguardo si spostava sempre più verso gli oggetti semanticamente importanti che aiutavano ad aggiornare il modello interno della storia in divenire. Questo schema valeva non solo per l’oggetto singolarmente più saliente, ma per tutti gli oggetti nella scena: nelle storie coerenti, l’importanza semantica prevedeva meglio sia quanto spesso sia quanto rapidamente gli oggetti venivano fissati.

Figure 2
Figure 2.

Cosa rivela questo sul modo in cui comprendiamo le scene

Questi risultati suggeriscono che i nostri occhi non sono meri schiavi della luminosità e del contrasto. Piuttosto, servono la nostra curiosità e la nostra comprensione. A prima vista campioniamo le parti visivamente più “rumorose” di una scena, ma in una frazione di secondo il nostro senso interno del “che cosa sta succedendo qui?” inizia a dirigere lo sguardo verso i pezzi che contano per la storia—anche se quei pezzi sono visivamente semplici, come una porta anonima o una rana irritata. Combinando tracciamento oculare, modelli basati sull’immagine e IA basate sul linguaggio, lo studio mostra che il contesto narrativo rimodella il modo in cui esploriamo le immagini. Nella vita di tutti i giorni, questo significa che i movimenti oculari offrono una finestra non solo su ciò che vediamo, ma sulla storia invisibile che stiamo costruendo nelle nostre menti.

Citazione: Berlot, E., Schmitt, LM., Huber-Huber, C. et al. Narrative context shifts gaze from visual to semantic salience. Commun Psychol 4, 59 (2026). https://doi.org/10.1038/s44271-026-00426-7

Parole chiave: movimenti oculari, attenzione visiva, percezione delle storie, salienza semantica, modelli linguistici