Clear Sky Science · de
Cuentos: Ein groß angelegtes Eye-Tracking-Lesekorpus zu spanischen Erzähltexten
Warum das Beobachten der Augen verrät, wie wir lesen
Jedes Mal, wenn Sie eine Geschichte lesen, huschen Ihre Augen, pausieren und springen auf Weisen, die Sie kaum bemerken — doch diese kleinen Bewegungen zeichnen stillschweigend nach, wie Ihr Geist arbeitet. Das meiste, was wir darüber wissen, stammt aus Studien in Englisch. Dieses Paper stellt „Cuentos“ vor, die größte öffentlich verfügbare Sammlung von Blickbewegungsdaten von Personen, die vollständige Geschichten auf Spanisch lesen. Sie macht den unsichtbaren Tanz der Augen zu einer reichen Ressource, um zu verstehen, wie Spanischsprechende lesen, und um intelligentere Sprachtechnologien zu entwickeln.
Geschichten, keine isolierten Sätze
Statt kurzer, künstlicher Sätze baten die Forscher 113 Muttersprachler des Spanischen, vollständige, in sich geschlossene Geschichten in lateinamerikanischem Spanisch zu lesen. Die Sammlung umfasst 30 verschiedene Erzählungen — einige lang, einige kurz — und reicht über Genres wie Realismus, Horror, Essays und Wissenschaftsbeiträge. Im Schnitt enthalten lange Geschichten etwa 3.300 Wörter, kurze etwa 800; zusammen decken sie nahezu 40.000 Wörter und 8.500 verschiedene Lexeme ab. Dieses Design erfasst, wie Menschen natürlich erzählende Texte von Anfang bis Ende lesen, statt wie sie isolierte Zeilen im Labor verarbeiten.

Jede Pause der Augen nachverfolgen
Die Teilnehmenden saßen in einem abgedunkelten Raum und lasen Geschichten auf einem Computerbildschirm, während ein Hochgeschwindigkeits-Eye-Tracker registrierte, wohin sie tausendmal pro Sekunde schauten. Das Gerät erfasste zwei zentrale Verhaltensweisen: kurze Stillstände, sogenannte Fixationen, bei denen die Augen Informationen von der Seite aufnehmen, und schnelle Sprünge, sogenannte Sakkaden, wenn die Augen zu einer neuen Stelle wechseln. Die Texte wurden über mehrere Bildschirme verteilt, und die Lesenden konnten frei mit den Pfeiltasten vor- und zurückgehen, so wie man zwischen Seiten blättern würde. Nach jeder Geschichte beantworteten sie Verständnisfragen, um sicherzustellen, dass sie aufmerksam gewesen waren, und bei den kurzen Geschichten führten sie zusätzlich eine kurze Wortassoziationsaufgabe aus, um die Aufmerksamkeit vor der nächsten Erzählung zurückzusetzen.
Rohdaten der Blickpfade in strukturierte Daten verwandeln
Das Sammeln roher Blickbewegungspunkte ist nur der Anfang. Das Team entwickelte maßgeschneiderte Software, um diese Informationen sorgfältig zu bereinigen und zu organisieren. Sie entfernten unzuverlässige Daten, etwa extrem kurze oder sehr lange Fixationen und Durchgänge, in denen der Eye-Tracker schlecht kalibriert war. Für jeden Bildschirm passten menschliche Prüfer Leitlinien an, sodass Fixationscluster präzise mit der richtigen Textzeile übereinstimmten. Anschließend wiesen sie mithilfe der Position von Leerzeichen zwischen Wörtern einzelne Fixationen bestimmten Wörtern zu. Sonderfälle — wie der große Sprung des Blicks vom Ende einer Zeile zum Anfang der nächsten oder versehentliche Rücksprünge zu früheren Bildschirmen — wurden erkannt und herausgefiltert. Das Ergebnis ist eine akribisch kuratierte Karte, die jedes Wort in den Geschichten damit verknüpft, wie lange, wie häufig und in welchem Muster es betrachtet wurde.
Was die Blickbewegungen offenbaren
Aus diesen bereinigten Spuren berechneten die Autorinnen und Autoren eine umfangreiche Menge an Messwerten für jedes Wort. Einige spiegeln frühe, automatische Verarbeitung wider, etwa wie lange die erste Fixation dauert oder wie lange ein Wort betrachtet wird, bevor die Augen weiterziehen. Andere erfassen spätere, bewusstere Prozesse, wie die Zeit, die damit verbracht wird, zurückzukehren, um frühere Wörter noch einmal zu lesen. Mit modernen statistischen Modellen bestätigten sie bekannte Muster aus anderen Sprachen nun eindeutig auch für Spanisch: kürzere und häufigere Wörter werden schneller gelesen, und sehr kurze, vertraute Wörter werden eher ganz übersprungen. Auch die Position eines Wortes im Satz oder auf dem Bildschirm beeinflusst subtil, wie lange die Augen darauf verweilen. Diese Prüfungen zeigen, dass der neue Datensatz sich sinnvoll und interpretierbar verhält und als verlässlicher Benchmark dienen kann.

Ein neues Werkzeug für Leseforschung und smarte Software
Alle Daten und der Code sind frei in standardisierten Formaten verfügbar, sodass andere Wissenschaftlerinnen und Wissenschaftler sie leicht untersuchen können. Linguistinnen und Linguisten können Cuentos nutzen, um spanischspezifische Merkmale wie Wortendungen, Wortstellung und Stil zu erforschen. Psychologinnen und Psychologen können untersuchen, wie sich Individuen in ihren Lesestrategien unterscheiden oder wie Genre die geistige Anstrengung beeinflusst. Entwicklerinnen und Entwickler aus KI und natürlicher Sprachverarbeitung können diese Informationen in Modelle einspeisen, die das menschliche Lesen besser nachahmen, und so Aufgaben verbessern wie die Vereinfachung von Texten oder die Vorhersage, welche Wörter schwerer zu verstehen sind. Kurz gesagt: Cuentos verwandelt die subtilen Bewegungen spanischer Leseraugen in ein mächtiges gemeinsames Werkzeug, um sowohl den Geist zu verstehen als auch menschenähnlichere Sprachtechnologien zu bauen.
Zitation: Travi, F., Bianchi, B., Slezak, D.F. et al. Cuentos: A Large-Scale Eye-Tracking Reading Corpus on Spanish Narrative Texts. Sci Data 13, 434 (2026). https://doi.org/10.1038/s41597-026-06798-z
Schlüsselwörter: Blickverfolgung, Lesen, Spanische Sprache, natürliche Sprachverarbeitung, Kognitionswissenschaft