Clear Sky Science · zh
RAID 数据集:人类对仿射图像失真与高斯噪声的反应
微小图像变化为何对你的视觉重要
每天,你的双眼都能轻松应对被倾斜、缩放、平移或略显颗粒的照片——想象用手机拍摄移动的主体,或在社交媒体上浏览稍微模糊的图像。但人们究竟如何感知这些变化?能否让计算机以我们判断图像质量的方式来学习评估?本文介绍了一个名为 RAID 的新数据集,它精确测量观察者对常见且简单图像失真的反应,搭建起日常视觉体验与为相机、流媒体和人工智能提供支持的算法之间的桥梁。

将常见的图片微调放到考验中
研究人员聚焦于四种在现实世界和数字图像中经常发生的基本变换:旋转(倾斜图像)、平移(横向滑动)、缩放(放大或缩小)以及添加称为高斯噪声的颗粒状杂点。与许多强调压缩伪影或数字故障的现有图像质量数据库不同,这些变换模拟了你转动头部、改变视线或对象移动和光照变化时发生的情况。研究团队从知名的柯达(Kodak)图像集合中选取了 24 张自然彩色照片,为每种失真设置了 9 个递增级别,并保留原始图像,总计 888 张图片。
人们如何比较图片差异
为了了解这些变化到底有多显著,210 名志愿者来到受控实验室,坐在校准的显示器前,参与了 4 万多次试验。在每次试验中,他们在屏幕上看到两对图像,并要回答一个简单问题:左边那对看起来差别更大,还是右边那对?这一在视觉科学中称为最大似然差异尺度(Maximum Likelihood Difference Scaling)的方法,使研究者能将大量此类选择转化为每种失真的平滑“感知量表”。量表上的每个点都表示给定失真级别对平均观察者而言的强度,从几乎不可见到明显可察。

计时大脑反应的速度
在参与者做出选择的同时,实验也记录了他们的反应时间。这些反应时间呈现出在其他感知领域也常见的经典模式:当图像差别非常小或极为明显时,人们响应较快,但在中等难度时会放慢速度。随着失真变强,视觉系统决定哪一对差异更大所需的时间减少。这种行为符合心理学中著名的皮埃龙定律(Piéron’s law),即更强的感官信号对应更快的反应,支持了该数据集捕捉到的是人类视觉的真实属性,而不是人们决策中的随机噪声。
与现有质量评分的对比检验
为使新数据对依赖既有图像质量基准的工程师和科学家有用,作者将他们对噪声图像的测量结果与一个名为 TID2013 的流行数据库中的评分进行了比较,后者采用典型的“意见分”尺度让人们评价图像质量。他们发现了一个强烈且近似线性的关系:在 RAID 中被判断为更明显的失真,往往在 TID2013 中得到更低的质量评分。这一关联使得团队能够推导出一个简单公式,将他们的感知量表值转换为标准的意见分,从而便于将 RAID 与旧数据集合并并接入现有评估流程。
这对视觉科学与人工智能的意义
除了与既有工作相吻合外,新数据集还凸显了其精细测量胜过传统意见分的情形。通过刻意寻找在一种方法下被认为相似但另一种方法下被认为差异很大的图像对,并让人们判断哪一种更符合他们的感受,作者证明了他们的方法更倾向于与观众实际看到的情况保持一致。数据集还揭示了直观的模式:在具有明显地平线的海景中,轻微的倾斜比在充满斜角形状的复杂场景中更容易察觉;噪声在平滑的天空上比在细节丰富的纹理上更显眼。综合来看,RAID 提供了更丰富、更以人为中心的描述,说明我们如何注意到日常图像变化,为改进人类视觉模型和旨在以人类视角观察世界的人工智能系统提供了坚实的测试场景。
引用: Daudén-Oliver, P., Agost-Beltran, D., Sansano-Sansano, E. et al. RAID-Dataset: human responses to affine image distortions and Gaussian noise. Sci Data 13, 256 (2026). https://doi.org/10.1038/s41597-026-06581-0
关键词: 图像质量, 人类视觉, 视觉感知, 图像失真, 心理物理学