Clear Sky Science · ja
Cuentos: スペイン語の物語文に対する大規模な視線追跡読書コーパス
なぜ目の動きを見ると読書の仕方がわかるのか
物語を読むたびに、目はほとんど気づかない速さで跳んだり止まったりしますが、これらの小さな動きは心がどのように働いているかを静かに記録しています。これまでの知見の多くは英語の研究に基づいています。ここで紹介する論文は「Cuentos」と名付けられた、スペイン語で書かれた長編の物語を読んだときの視線データとしては最大規模の公開コレクションを提示します。目の見えないダンスを豊かな資源に変え、スペイン語話者の読書理解やより賢い言語技術の構築に役立てます。
孤立した文ではなく、物語を
短く人工的な文を使う代わりに、研究者たちは113人のスペイン語ネイティブに、ラテンアメリカ・スペイン語で書かれた完結した物語を丸ごと読んでもらいました。コレクションは30編の異なる物語を含み、長短さまざま、リアリズム、ホラー、エッセイ、サイエンスライティングなどのジャンルを網羅しています。平均すると長編は約3,300語、短編は約800語で、合計で約40,000語、8,500語種に達します。この設計は、実験室で孤立した一行を処理する方法ではなく、読者が物語テキストを始めから終わりまで自然に読むときの実態を捉えます。

目の止まり方をすべて追跡する
参加者は暗室でコンピュータ画面上の物語を読み、高速の視線追跡装置が毎秒千回という頻度で視線位置を記録しました。その装置は二つの主要な挙動を捉えました。ページから情報を取り込む短い停止である「注視(fixation)」と、新しい場所へ移動する速い跳躍である「サッカード(saccade)」です。テキストは複数の画面に分割され、読者は矢印キーで前後に自由に移動でき、まるでページをめくるように読める設計でした。各物語の後には理解度を確認する質問に答えて注意を払って読んだことを確かめ、短編の後には次の物語に移る前に注意をリセットするための簡単な語連想課題も行いました。
生の視線経路を構造化データに変換する
生の視線点の収集は出発点にすぎません。研究チームはこの情報を丁寧に整理・清掃する専用ソフトを構築しました。非常に短い、あるいは極端に長い注視や、トラッカーの較正が不良だった試行など信頼できないデータを除外しました。各画面ごとに人間のレビュアーがガイドラインを調整し、注視のクラスターが正しい行に正確に整列するようにしました。その後、語間の空白位置を手がかりにして個々の注視を特定の単語に割り当てました。行末から次行の先頭への大きな跳躍や、誤って前の画面に戻るといった特殊ケースは検出されてフィルタリングされました。その結果、物語中の各単語がどのくらいの時間、どの頻度で、どのようなパターンで見られたかを結び付けた精緻なマップが得られました。
視線動態が明かすこと
清掃されたトレースから、著者らは各単語について豊富な指標を算出しました。初期の自動的な処理を反映する指標—最初の注視の長さや、目が次に移るまでの滞在時間—や、後続の意図的な処理を示す指標—前の単語に戻って再読する時間など—があります。現代的な統計モデルを用いて、他言語で知られているパターンがスペイン語にも当てはまることを確認しました:短く頻度の高い単語はより速く読まれ、非常に短く馴染みのある語は読み飛ばされることが多い、ということです。文中や画面上での語の位置も、目がその語にとどまる時間に微妙な影響を与えます。これらの検証により、新しいデータセットが合理的で解釈可能な振る舞いを示し、信頼できるベンチマークとして機能することが示されました。

読書研究と賢いソフトウェアのための新しい道具
すべてのデータとコードは標準化された形式で自由に公開されており、他の研究者が容易に探索できます。言語学者は語尾や語順、文体のようなスペイン語固有の特徴をCuentosで調べることができます。心理学者は個人の読書戦略の差やジャンルが精神的負荷に与える影響を検討できます。人工知能や自然言語処理の開発者は、この情報を人間の読書をより忠実に模倣するモデルに取り込み、文章の可読性向上や理解しにくい単語の予測といったタスクを改善できます。簡単に言えば、Cuentosはスペイン語読者の微妙な眼球運動を、心の理解と人間らしい言語技術の構築のための強力な共有ツールに変えます。
引用: Travi, F., Bianchi, B., Slezak, D.F. et al. Cuentos: A Large-Scale Eye-Tracking Reading Corpus on Spanish Narrative Texts. Sci Data 13, 434 (2026). https://doi.org/10.1038/s41597-026-06798-z
キーワード: 視線追跡, 読書, スペイン語, 自然言語処理, 認知科学