Clear Sky Science · zh
《Cuentos:一个关于西班牙语叙事文本的大规模眼动追踪阅读语料库》
为何观察眼动能揭示我们的阅读方式
每次阅读故事时,你的眼睛会以你几乎察觉不到的方式快速移动、停顿和跳跃——这些细微动作静静记录了你的大脑如何工作。我们对这些现象的大部分了解来自英文研究。本文介绍了“Cuentos”,这是迄今为止最大的公开数据集,记录了人们阅读完整西班牙语故事时的眼动数据。它将肉眼看不见的眼动舞蹈转化为理解西班牙语读者阅读过程并构建更智能语言技术的丰富资源。
故事,而非孤立句子
研究者没有使用短小的人为句子,而是请113名西班牙语母语者阅读用拉美西班牙语写成的完整独立故事。该集合包含30篇不同的故事——有的长、有的短——涵盖现实主义、恐怖、散文和科普等体裁。长篇平均约3300字,短篇约800字,总计近4万字和8500个不同词项。这样的设计再现了人们从头到尾自然阅读叙事文本的方式,而非在实验室中处理孤立句子的情形。

追踪眼睛的每一次停顿
参与者坐在昏暗的房间里,在电脑屏幕上阅读故事,同时高速眼动仪以每秒千次的频率记录他们的注视位置。设备捕捉两种关键行为:称为注视(fixations)的短暂停留——眼睛从页面获取信息的时刻;以及称为扫视(saccades)的快速跳动——眼睛移向新位置的动作。文本被分布在多个屏幕上,读者可以像翻页一样用箭头键自由前后移动。每读完一个故事,参与者需回答理解问题以确保注意力到位;对于短篇,他们还执行简短的联想任务,以在下一篇阅读前重置注意焦点。
将原始注视轨迹转为结构化数据
收集原始眼动点只是开始。团队开发了定制软件,对这些信息进行细致清理和组织。他们移除了不可靠的数据,例如极短或极长的注视,以及校准差的试验。对于每个屏幕,人工审阅者调整参考线,使注视簇准确对齐到正确的文本行。随后,利用单词间空格的位置,将单个注视分配到具体词语。特殊情况——例如从一行末端到下一行开头的大跳跃,或意外返回先前屏幕的情况——被检测并过滤掉。最终产出是一个精心策划的地图,把故事中每个词与其被注视的时长、频率和模式关联起来。
眼动揭示了什么
基于这些清理后的轨迹,作者为每个词计算了一组丰富的测量指标。有些指标反映早期、自动化的处理过程,例如首次注视时长或在眼睛移开前某词被注视的时间;另一些则捕捉较晚、较为刻意的处理,例如回读前文所花费的时间。通过现代统计模型,他们在西班牙语中验证了其他语言已知的规律:较短且更常见的词被读得更快,而非常短且熟悉的词更有可能被跳读。词语在句中或屏幕上的位置也会微妙影响眼睛停留的时长。这些检验表明,新数据集表现出合理且可解释的特征,可作为可靠的基准。

为阅读研究与智能软件提供新工具
所有数据与代码均以标准化格式免费提供,便于其他研究者进行探索。语言学家可以利用Cuentos研究西班牙语特有的特征,如词尾、词序和文体。心理学家可以考察个体在阅读策略上的差异或体裁对认知负荷的影响。人工智能与自然语言处理领域的开发者可以将这些数据输入模型,使其更贴近人类的阅读行为,从而改进例如文本简化或预测难读词等任务。简言之,Cuentos把西语读者眼动的微妙模式变成了一个强大的共享工具,既可用于理解心智,也可用于构建更具人类特征的语言技术。
引用: Travi, F., Bianchi, B., Slezak, D.F. et al. Cuentos: A Large-Scale Eye-Tracking Reading Corpus on Spanish Narrative Texts. Sci Data 13, 434 (2026). https://doi.org/10.1038/s41597-026-06798-z
关键词: 眼动追踪, 阅读, 西班牙语, 自然语言处理, 认知科学