Clear Sky Science · zh

叙事语境将注视从视觉显著性转向语义显著性

2026-02-19 · 返回目录

为什么我们的眼睛不只是追随最亮的东西

当你看一幅画时，眼睛会以快速的跳动在场景的不同部分短暂停留。看起来似乎很自然——你的注视会被最有色彩或对比度最高的部分吸引。但在日常生活中，我们通常是在跟随故事——看电影、读连环画、翻看照片——并试图理解正在发生的事情。本研究提出了一个看似简单却意义重大的问题：随着故事的展开，我们的眼睛是继续追逐最炫目的片段，还是转向那些对理解情节最重要的部分？

观察无字连环画故事

研究人员邀请成人观看关于一个男孩和他动物朋友的简短无字连环画故事。每个故事由24张手绘图像组成，按原始顺序能形成清晰的开端、发展和结局。有时参与者看到的是正确顺序的图片，这样他们可以在脑中构建连贯的故事；有时完全相同的图片被打乱成随机顺序，扰乱故事线但保持视觉内容不变。整个过程中，参与者只被要求自由观看图片，同时用高精度眼动追踪设备记录他们的眼动。

衡量视觉上显眼与意义上重要的差别

为了理解图像中哪些方面吸引了目光，研究团队比较了两类截然不同的“重要性”。首先，他们估计视觉显著性——某个物体仅凭图像属性（如对比度和边缘）有多突出——使用先进的计算机视觉模型来预测人们在单张图片中倾向于注视的位置。其次，他们估计语义显著性——某个物体对理解故事的重要性。为此，另一些志愿者以连贯顺序为每组图片序列撰写简短叙述。然后使用大型语言模型（受过文本训练的现代人工智能系统）计算这些叙述中每个词在给定先前语境下的“惊奇度”，并将这些惊奇度映射到图片中的特定物体上（例如，突然咬另一只青蛙的嫉妒青蛙）。

故事顺序如何改变我们注视的地点与时机

有了这些度量，作者考察了注视的两个方面：每个物体被注视的频率，以及它吸引首次注视的速度。在各个条件下，强烈的视觉显著物体不出意外地比图像的其他部分更常被注视、且更早被看见。但关键发现出现在比较连贯与打乱的故事顺序时。当图片构成有意义的序列时，观者相对更常注视那些在叙事上重要的物体——即承担故事重量的元素——而在相同图片被打乱时，这种注视减少。他们也倾向在每个五秒观看期内更早地看向这些有意义的物体。相比之下，视觉显眼物体的优势在连贯故事中并没有增强；如果有变化的话，当能构建合理叙事时，它们的早期主导地位反而更快衰减。

注意力转移的时间进程

研究还追踪了这种平衡在连续眼动中的变化。每张新图片出现后最初的一两次注视强烈受视觉显著性驱动，与语境无关：眼睛最初会迅速落到场景中物理上突出的部分。但随着观看的继续，尤其在发生几次注视之后，差异开始显现。在被打乱的序列中，人们持续偏好视觉显眼的区域。在连贯序列中，他们的眼睛逐渐转向那些有助于更新其内部故事模型的语义重要物体。这一模式不仅适用于单个最显著的物体，而是适用于场景中的所有物体：在连贯故事中，语义重要性更能预测物体被注视的频率和速度。

这揭示了我们如何理解场景

这些结果表明，我们的眼睛并非单纯受亮度和对比的奴役。相反，它们服务于我们的好奇心与理解。乍看之下，我们会采样场景中视觉上最响亮的部分，但在几分之一秒内，我们对“这里发生了什么？”的内在判断就开始引导视线，转向那些对故事重要的片段——即便这些片段在视觉上很平淡，比如一个不起眼的门或一只恼怒的青蛙。通过结合眼动追踪、基于图像的模型和基于语言的人工智能，研究表明叙事语境重塑了我们探索图片的方式。在日常生活中，这意味着眼动不仅展现我们看到了什么，也反映了我们在头脑中构建的无形故事。

引用: Berlot, E., Schmitt, LM., Huber-Huber, C. et al. Narrative context shifts gaze from visual to semantic salience. Commun Psychol 4, 59 (2026). https://doi.org/10.1038/s44271-026-00426-7

关键词: 眼动, 视觉注意, 故事感知, 语义显著性, 语言模型