Clear Sky Science · zh
水平扫视偏向源自显著性各向异性与自我中心偏向的组合
我们的眼睛如何扫视世界
每次你环顾房间、阅读标志或观看驶过的汽车时,眼睛都会做出被称为扫视的快速跳动。这些微小而快速的运动有助于拼接你所看到的内容。但这些跳动并非在所有方向上均匀分布:人们左右移动眼睛的频率远高于上下。该研究提出了一个看似简单但影响深远的问题,对视觉科学、机器人学甚至虚拟现实都有意义:为什么我们的眼动会强烈偏向水平方向?
图片与注视中的模式
为探讨这一问题,研究者分析了48名被试在自由观看141幅自然图像时的眼动记录,这些图像包括城市街道、风景以及物体特写。他们证实了一个已知的模式:当人们看图片时,扫视倾向于沿主要方位方向移动,尤其是水平方向。但这种水平偏向并非对每张图片都相同。有些图像,例如一簇紧密的叶子,只产生较弱的左右偏好;而另一些图像,如具有明显地平线和树行的宽阔场景,则导致非常强烈的水平眼动。这种差异暗示图像本身的某些特征在塑造眼动方向上发挥作用。

衡量“显著之处”的三种方法
研究团队随后寻找可能预测观众眼动倾向水平程度的具体图像特征。他们测试了三种候选方法。首先,他们使用与傅里叶变换相关的技术衡量不同方向上的明暗模式,以判断图像中是否存在更多水平或垂直条纹。其次,他们采用了最先进的视觉显著性计算模型,用以估计人在场景中最可能注视的位置。从这些显著性图出发,他们模拟了数千次眼动跳跃,以推断模型是否“偏好”水平移动。第三,他们使用了一个训练来判断图像相对于重力方向的神经网络,该网络捕捉更全局的结构线索,如建筑与地平线是否对齐。对每幅图像,他们将这三种分析结果提炼为一个数值,描述每种特征在多大程度上偏向水平方向。
显著结构推动最强的偏向
当研究者将这些图像测量结果与实际眼动数据进行比较时,一个因素突出显现:显著性图中的方向偏向。那些显著性模型预测最吸引注意的区域更呈水平排列的图像,也在观察者中产生了更强的水平扫视。相比之下,原始的明暗条纹分布和全局结构线索并不能有意义地预测水平眼动偏向。统计模型表明,与显著性相关的方向性解释了图像间差异的一部分,在两套截然不同的图像集中均如此。换言之,重要的不是世界中存在许多水平与垂直线条,而是这些线条如何组织出那些吸引我们注视的具体位置。
结合以身体为中心与以世界为中心的偏好
然而,仅凭显著性无法完全解释人们如何移动眼睛。以往实验表明,即使场景被旋转或人们歪着头坐着,眼动也会部分受场景方向牵引、部分受自身身体与眼球方向影响。为捕捉这种平衡,作者构建了一个计算模型,将两种成分混合:一个以场景为准的分配图(基于显著性预测)和一个以观察者为准的自我中心图(在注视中心附近有内在的水平扫视偏好)。模型通过组合这两张图来模拟扫视序列。对于正立图像,混合模型生成的眼动模式与人类数据高度相似,优于仅依赖场景或仅依赖内部偏好的模型。

当场景倾斜时,大跳与小跳的表现不一致
真正的考验是在研究者将模型应用于同一场景的倾斜版本时进行的。在人类观察者中,扫视方向的分布会向图片的倾斜方向部分旋转,且大幅度的扫视比小幅度的更随倾斜场景而转动,小扫视则更依赖于个体自身的“水平”感。组合模型在正确的方向上重现了这一模式:其模拟的扫视朝向倾斜场景旋转,并且较大的模拟跳跃显示出比较小跳跃更多的旋转。但旋转量小于人类实际表现。这一不匹配表明,当前的显著性模型尚未捕捉到倾斜场景吸引我们目光的所有方式,且大脑融合以身体为中心与以世界为中心信息的方式比模型假定的更为灵活。
这对理解视觉为何重要
对非专业读者而言,关键结论是:我们对左右观看的偏好并非古怪或缺陷;它反映了两股力量的协作。一方面,这种偏好内置于我们的眼动系统,甚至在黑暗中也偏好水平跳动。另一方面,来自我们所处世界的结构——地平线、地面面、建筑和许多物体沿水平与垂直轴排布——决定了场景中哪些部分更突出并吸引注视。该研究表明,大脑很可能进化出一种自我中心的水平偏好,因为它与我们在正立状态下通常遇到的自然场景统计特征相匹配。理解这种相互作用不仅有助于澄清我们的视觉机制,也为构建更类人化的计算机视觉系统和设计与我们眼睛自然倾向相协调的视觉环境提供了指导。
引用: Reeves, S.M., Otero-Millan, J. Horizontal saccade bias results from combination of saliency anisotropies and egocentric biases. Sci Rep 16, 6027 (2026). https://doi.org/10.1038/s41598-026-35572-9
关键词: 眼动, 视觉注意, 自然场景, 显著性模型, 扫视