Clear Sky Science · es

El contexto narrativo desplaza la mirada de la saliencia visual a la semántica

2026-02-19 · Volver al índice

Por qué nuestros ojos no siguen solo lo más brillante

Cuando miras una imagen, tus ojos se desplazan en movimientos rápidos, deteniéndose brevemente en distintas partes de la escena. Podría parecer obvio que la mirada se dirige a lo más colorido o de mayor contraste. Pero en la vida cotidiana normalmente seguimos historias: vemos una película, leemos cómics, o recorremos fotos, tratando de entender lo que ocurre. Este estudio plantea una pregunta simple pero potente: a medida que se desarrolla una historia, ¿nuestros ojos siguen persiguiendo los elementos más llamativos o se orientan hacia las partes que importan para comprender la trama?

Observando historias gráficas sin palabras

Los investigadores invitaron a adultos a ver historias cortas y sin palabras sobre un niño y sus amigos animales. Cada historia estaba compuesta por 24 imágenes dibujadas a mano que, en su orden original, forman un claro comienzo, nudo y desenlace. A veces los participantes veían las imágenes en esa secuencia adecuada, de modo que podían construir una historia coherente en su mente. Otras veces, las mismas imágenes se mezclaban en un orden aleatorio, desordenando la trama mientras se mantenía idéntico el contenido visual. En todo momento, se les indicó simplemente que miraran las imágenes libremente mientras se registraban sus movimientos oculares con equipo de seguimiento de alta precisión.

Midiendo lo que es llamativo visualmente frente a lo que es significativo

Para entender qué aspectos de cada imagen atraían la mirada, el equipo comparó dos tipos muy distintos de “importancia”. Primero, estimaron la saliencia visual: cuánto destaca un objeto puramente por sus propiedades de imagen, como contraste y bordes, usando modelos avanzados de visión por computadora que predicen dónde tiende a mirar la gente en imágenes individuales. Segundo, estimaron la saliencia semántica: cuán importante es un objeto para comprender la historia. Para ello, voluntarios separados escribieron breves relatos describiendo cada secuencia de imágenes en orden coherente. Un gran modelo de lenguaje (un sistema moderno de IA entrenado con texto) se utilizó luego para calcular cuán sorprendente era cada palabra en esos relatos, dado el contexto previo, y esas puntuaciones de sorpresa se asignaron a objetos específicos en las imágenes (por ejemplo, la rana celosa que de repente muerde a otra rana).

Cómo el orden de la historia cambia dónde y cuándo miramos

Con estas medidas en mano, los autores examinaron dos aspectos de la mirada: con qué frecuencia se fijaba el ojo en cada objeto y con qué rapidez atraía la primera mirada. En todas las condiciones, los objetos fuertemente salientes visualmente fueron, como era de esperar, observados con más frecuencia y antes que otras partes de la imagen. Pero el hallazgo clave emergió al comparar el orden coherente con el orden mezclado. Cuando las imágenes formaban una secuencia con sentido, los espectadores miraban con relativa mayor frecuencia los objetos semánticamente importantes—los que tenían peso narrativo—que cuando las mismas imágenes estaban desordenadas. También tendían a mirar esos objetos significativos más pronto dentro de cada periodo de visualización de cinco segundos. En contraste, la ventaja de los objetos visualmente llamativos no aumentó en las historias coherentes; si acaso, su dominio inicial se desvaneció más rápido cuando se podía construir una narrativa con sentido.

Curso temporal del cambio de atención

El estudio también siguió cómo cambiaba este equilibrio a lo largo de sucesivos movimientos oculares. Las primeras una o dos fijaciones después de que aparecía cada nueva imagen estaban fuertemente impulsadas por la saliencia visual, independientemente del contexto: los ojos inicialmente se dirigían a las partes físicamente prominentes de la escena. Pero a medida que continuaba la visualización, especialmente una vez que ocurrían varias fijaciones, apareció una divergencia. En las secuencias mezcladas, la gente seguía favoreciendo las regiones visualmente salientes. En las secuencias coherentes, sus miradas se desplazaban cada vez más hacia objetos semánticamente importantes que ayudaban a actualizar su modelo interno de la historia en desarrollo. Este patrón se mantuvo no solo para el objeto más saliente de la escena, sino para todos los objetos: en historias coherentes, la importancia semántica predijo mejor tanto con qué frecuencia como con qué rapidez se fijaban los objetos.

Lo que esto revela sobre cómo entendemos las escenas

Estos resultados sugieren que nuestros ojos no son meros esclavos del brillo y el contraste. En cambio, sirven a nuestra curiosidad y comprensión. A primera vista, muestreamos las partes visualmente más ruidosas de una escena, pero en una fracción de segundo nuestro sentido interno de “¿qué está pasando aquí?” empieza a guiar la mirada hacia las piezas que importan para la historia—incluso si esas piezas son visualmente discretas, como una puerta anodina o una rana enfadada. Al combinar seguimiento ocular, modelos basados en la imagen y IA basada en lenguaje, el estudio muestra que el contexto narrativo remodela la forma en que exploramos las imágenes. En la vida cotidiana, esto significa que los movimientos oculares ofrecen una ventana no solo a lo que vemos, sino a la historia invisible que estamos construyendo en nuestra mente.

Cita: Berlot, E., Schmitt, LM., Huber-Huber, C. et al. Narrative context shifts gaze from visual to semantic salience. Commun Psychol 4, 59 (2026). https://doi.org/10.1038/s44271-026-00426-7

Palabras clave: movimientos oculares, atención visual, percepción de historias, saliencia semántica, modelos de lenguaje