Clear Sky Science · ru

Cuentos: Большой корпус данных слежения за глазами при чтении испанских повествовательных текстов

· Назад к списку

Почему наблюдение за глазами может раскрыть, как мы читаем

Каждый раз, когда вы читаете рассказ, ваши глаза мелькают, останавливаются и перескакивают так, что вы почти не замечаете — но эти крошечные движения тихо фиксируют, как работает ваш ум. Большая часть наших знаний об этом получена на английском языке. В этой статье представлена коллекция «Cuentos», крупнейший публичный набор данных о движениях глаз у людей, читающих целые рассказы на испанском. Он превращает невидимый танец глаз в богатый ресурс для понимания того, как читают носители испанского, и для создания более умных языковых технологий.

Рассказы, а не изолированные предложения

Вместо коротких искусственных предложений исследователи попросили 113 носителей испанского прочитать полные, самостоятельные рассказы, написанные на латиноамериканском варианте испанского. Коллекция включает 30 разных рассказов — некоторые длинные, некоторые короткие — охватывающих жанры, такие как реализм, хоррор, эссе и научная проза. В среднем длинные тексты содержат около 3300 слов, а короткие — около 800; в сумме это почти 40 000 слов и 8500 уникальных терминов. Такой подход отражает, как люди естественно читают повествовательные тексты от начала до конца, а не как они обрабатывают отдельные строки в лаборатории.

Figure 1
Figure 1.

Отслеживание каждой паузы глаз

Участники сидели в затемнённой комнате и читали истории на экране компьютера, пока высокоскоростной трекер глаз записывал, куда они смотрят, тысячу раз в секунду. Устройство фиксировало два ключевых поведения: короткие остановки, называемые фиксациями, когда глаза собирают информацию со страницы, и быстрые прыжки, называемые саккадами, когда взгляд перемещается в новую точку. Тексты были разбиты на несколько экранов, и читатели могли свободно переходить вперёд и назад с помощью стрелок, как будто листают страницы. После каждого рассказа они отвечали на вопросы на понимание, чтобы подтвердить, что внимательно читали, а для коротких рассказов выполняли также краткое задание на ассоциации слов, чтобы восстановить фокус перед следующим текстом.

Преобразование сырых путей взгляда в структурированные данные

Сбор сырых точек движения глаз — это только начало. Команда разработала собственное программное обеспечение для внимательной очистки и организации этой информации. Они удаляли ненадёжные данные, такие как чрезвычайно короткие или очень длинные фиксации, а также прогоны, где трекер был плохо откалиброван. Для каждого экрана человеческие рецензенты корректировали направляющие линии так, чтобы кластеры фиксаций точно совпадали с соответствующей строкой текста. Затем, используя положение пробелов между словами, отдельные фиксации сопоставляли с конкретными словами. Обрабатывались и специальные случаи — например, большой прыжок взгляда с конца одной строки на начало следующей или случайные возвраты к предыдущим экранам — их выявляли и фильтровали. В результате получилась тщательно курированная карта, связывающая каждое слово в рассказах с тем, как долго, как часто и в каком порядке на него смотрели.

Что показывают движения глаз

Из очищенных траекторий авторы рассчитали богатый набор показателей для каждого слова. Некоторые отражают раннюю, автоматическую обработку — например, как долго длится первая фиксация или сколько времени слово просматривают прежде чем взгляд уходит дальше. Другие измеряют более позднюю, целенаправленную обработку — например, время, затраченное на возвращение и перечитывание предыдущих слов. С помощью современных статистических моделей они подтвердили хорошо известные закономерности из других языков, теперь надёжно проявляющиеся и в испанском: более короткие и частотные слова читаются быстрее, и очень короткие знакомые слова чаще пропускают вовсе. Также место слова в предложении или на экране тонко влияет на длительность задержки взгляда. Эти проверки показывают, что новый набор данных ведёт себя осмысленно и интерпретируемо и может служить надёжным эталоном.

Figure 2
Figure 2.

Новый инструмент для исследований чтения и умного софта

Все данные и код свободно доступны в стандартизованных форматах, что упрощает их изучение другими учёными. Лингвисты могут использовать Cuentos для изучения особенностей испанского, таких как окончания слов, порядок слов и стиль. Психологи могут исследовать различия в стратегиях чтения у разных людей или то, как жанр влияет на умственную нагрузку. Разработчики в области ИИ и обработки естественного языка могут использовать эти данные в моделях, которые лучше имитируют человеческое чтение, улучшая задачи вроде упрощения текстов или предсказания, какие слова труднее понять. Проще говоря, Cuentos превращает тонкие движения глаз испаноязычных читателей в мощный общий инструмент как для понимания ума, так и для создания более «человеко-подобных» языковых технологий.

Цитирование: Travi, F., Bianchi, B., Slezak, D.F. et al. Cuentos: A Large-Scale Eye-Tracking Reading Corpus on Spanish Narrative Texts. Sci Data 13, 434 (2026). https://doi.org/10.1038/s41597-026-06798-z

Ключевые слова: слежение за глазами, чтение, испанский язык, обработка естественного языка, когнитивная наука