Clear Sky Science · es
Cuentos: Un corpus de lectura con seguimiento ocular a gran escala sobre textos narrativos en español
Por qué observar los ojos puede revelar cómo leemos
Cada vez que lees una historia, tus ojos se mueven, se detienen y saltan de formas que apenas percibes, pero esos pequeños movimientos registran silenciosamente cómo está funcionando tu mente. La mayor parte de lo que sabemos proviene de estudios en inglés. Este artículo presenta “Cuentos”, la colección pública más amplia de datos de movimiento ocular de personas leyendo historias completas en español. Convierte la danza invisible de los ojos en un recurso valioso para entender cómo leen los hablantes de español y para crear tecnologías lingüísticas más inteligentes.
Historias, no frases aisladas
En lugar de usar oraciones cortas y artificiales, los investigadores pidieron a 113 hablantes nativos de español que leyeran relatos completos y autónomos escritos en español latinoamericano. La colección incluye 30 cuentos distintos —algunos largos, otros breves— que abarcan géneros como realismo, terror, ensayos y divulgación científica. En promedio, los relatos largos contienen unas 3.300 palabras y los cortos unas 800, cubriendo en conjunto casi 40.000 palabras y 8.500 términos distintos. Este diseño captura cómo la gente lee de forma natural textos narrativos, de principio a fin, en lugar de cómo procesa líneas aisladas en un laboratorio.

Rastreando cada pausa de los ojos
Los participantes se sentaron en una sala oscura y leyeron las historias en una pantalla de ordenador mientras un eyetracker de alta velocidad registraba dónde miraban mil veces por segundo. El dispositivo capturó dos comportamientos clave: paradas breves llamadas fijaciones, cuando los ojos captan información de la página, y saltos rápidos llamados sacadas, cuando los ojos se desplazan a un punto nuevo. Los textos se dividieron en varias pantallas y los lectores podían moverse libremente hacia adelante y atrás con las teclas de flecha, tal como alguien pasa páginas. Tras cada historia respondieron preguntas de comprensión para asegurar que habían prestado atención, y en las historias cortas también realizaron una breve tarea de asociación de palabras para reestablecer su foco antes del siguiente relato.
Transformar trayectorias de mirada crudas en datos estructurados
Recolectar puntos de movimiento ocular en crudo es solo el comienzo. El equipo desarrolló software personalizado para limpiar y organizar esta información con gran cuidado. Eliminó datos poco fiables, como fijaciones extremadamente cortas o muy largas y ensayos donde el seguimiento tenía una calibración deficiente. Para cada pantalla, revisores humanos ajustaron guías para que los clústeres de fijaciones se alinearan con la línea de texto correspondiente. Luego, usando la posición de los espacios entre palabras, asignaron fijaciones individuales a palabras específicas. Se detectaron y filtraron casos especiales —como el gran salto del ojo desde el final de una línea al inicio de la siguiente, o retornos accidentales a pantallas anteriores—. El resultado es un mapa meticulosamente curado que vincula cada palabra de los relatos con cuánto tiempo, con qué frecuencia y con qué patrón fue observada.
Lo que revelan los movimientos oculares
A partir de estas trazas limpiadas, los autores calcularon un conjunto rico de medidas para cada palabra. Algunas reflejan procesamiento temprano y automático, como la duración de la primera fijación o cuánto tiempo se mira una palabra antes de que los ojos sigan adelante. Otras capturan procesamiento posterior y más deliberado, como el tiempo dedicado a volver a leer palabras anteriores. Usando modelos estadísticos modernos, confirmaron patrones bien conocidos en otros idiomas ahora asentados en español: las palabras más cortas y más frecuentes se leen más rápido, y los lectores tienden a omitir palabras muy cortas y familiares. La posición de una palabra en la oración o en la pantalla también influye de manera sutil en cuánto tiempo se detienen los ojos en ella. Estas comprobaciones muestran que el nuevo conjunto de datos se comporta de forma sensata e interpretable y puede servir como un punto de referencia fiable.

Una nueva herramienta para la investigación de lectura y el software inteligente
Todos los datos y el código están disponibles libremente en formatos estandarizados, lo que facilita la exploración por parte de otros científicos. Los lingüistas pueden usar Cuentos para estudiar rasgos específicos del español, como las terminaciones de las palabras, el orden sintáctico y el estilo. Los psicólogos pueden examinar cómo varían las estrategias lectoras entre individuos o cómo el género afecta el esfuerzo mental. Los desarrolladores en inteligencia artificial y procesamiento de lenguaje natural pueden incorporar esta información en modelos que imiten mejor la lectura humana, mejorando tareas como simplificar textos o predecir qué palabras son más difíciles de comprender. En términos sencillos, Cuentos convierte los sutiles movimientos oculares de los lectores de español en una herramienta compartida poderosa tanto para comprender la mente como para construir tecnologías del lenguaje más parecidas a las humanas.
Cita: Travi, F., Bianchi, B., Slezak, D.F. et al. Cuentos: A Large-Scale Eye-Tracking Reading Corpus on Spanish Narrative Texts. Sci Data 13, 434 (2026). https://doi.org/10.1038/s41597-026-06798-z
Palabras clave: seguimiento ocular, lectura, idioma español, procesamiento de lenguaje natural, ciencia cognitiva