Clear Sky Science · pt

Contos: Um grande corpus de leitura com rastreamento ocular em textos narrativos em espanhol

2026-02-12 · Voltar ao índice

Por que observar os olhos pode revelar como lemos

Cada vez que você lê uma história, seus olhos se movem, param e saltam de maneiras que mal percebe — mas esses pequenos movimentos registram silenciosamente como sua mente está funcionando. A maior parte do que sabemos sobre isso vem de estudos em inglês. Este artigo apresenta “Contos”, a maior coleção pública de dados de movimentos oculares de pessoas lendo histórias completas em espanhol. Ele transforma a dança invisível dos olhos em um recurso valioso para entender como falantes de espanhol leem e para construir tecnologias de linguagem mais inteligentes.

Histórias, não sentenças isoladas

Em vez de usar sentenças curtas e artificiais, os pesquisadores pediram a 113 falantes nativos de espanhol que lessem histórias completas e autocontidas escritas em espanhol latino-americano. A coleção inclui 30 contos diferentes — alguns longos, outros curtos — abrangendo gêneros como realismo, horror, ensaio e divulgação científica. Em média, as histórias longas contêm cerca de 3.300 palavras, e as curtas cerca de 800, totalizando quase 40.000 palavras e 8.500 termos distintos. Esse desenho captura como as pessoas leem naturalmente textos narrativos, do começo ao fim, em vez de como processam linhas isoladas num laboratório.

Rastreando cada pausa dos olhos

Os participantes sentaram-se em uma sala escurecida e leram as histórias em uma tela de computador enquanto um rastreador ocular de alta velocidade registrava onde olhavam mil vezes por segundo. O aparelho capturou dois comportamentos-chave: paradas breves chamadas fixações, quando os olhos coletam informação da página, e saltos rápidos chamados sacadas, quando os olhos se movem para um novo ponto. Os textos foram divididos em várias telas, e os leitores podiam navegar livremente para frente e para trás usando as teclas de seta, assim como alguém folhearia páginas. Após cada história, responderam a perguntas de compreensão para garantir que haviam prestado atenção e, nas histórias curtas, também realizaram uma breve tarefa de associação de palavras para reorientar o foco antes do conto seguinte.

Transformando trajetórias de olhar brutas em dados estruturados

Coletar pontos brutos de movimento ocular é apenas o começo. A equipe desenvolveu software personalizado para limpar e organizar essas informações com muito cuidado. Removeram dados pouco confiáveis, como fixações extremamente curtas ou muito longas e tentativas em que o rastreador apresentava baixa calibração. Para cada tela, revisores humanos ajustaram linhas-guia de modo que agregados de fixações se alinhassem precisamente com a linha de texto correta. Em seguida, usando a posição dos espaços entre palavras, atribuíram fixações individuais a palavras específicas. Casos especiais — como o grande salto do olho do fim de uma linha para o início da próxima, ou retornos acidentais a telas anteriores — foram detectados e filtrados. O resultado é um mapa meticulosamente curado que vincula cada palavra nas histórias a quanto tempo, com que frequência e em que padrão ela foi visualizada.

O que os movimentos oculares revelam

A partir desses rastros limpos, os autores calcularam um conjunto rico de medidas para cada palavra. Algumas refletem processamento inicial e automático, como a duração da primeira fixação ou quanto tempo uma palavra é observada antes dos olhos seguirem adiante. Outras capturam processamento posterior e mais deliberado, como o tempo gasto retornando para reler palavras anteriores. Usando modelos estatísticos modernos, confirmaram padrões bem conhecidos em outras línguas agora firmemente evidentes em espanhol: palavras mais curtas e mais frequentes são lidas mais rapidamente, e leitores tendem a pular inteiramente palavras muito curtas e familiares. Onde uma palavra aparece na frase ou na tela também influencia de forma sutil quanto tempo os olhos nela permanecem. Essas checagens mostram que o novo conjunto de dados se comporta de maneira sensata e interpretable e pode servir como um referencial confiável.

Uma nova ferramenta para pesquisa sobre leitura e software inteligente

Todos os dados e o código estão disponíveis gratuitamente em formatos padronizados, facilitando a exploração por outros cientistas. Linguistas podem usar Contos para estudar características específicas do espanhol, como terminações de palavras, ordem de palavras e estilo. Psicólogos podem examinar como indivíduos diferem em suas estratégias de leitura ou como o gênero afeta o esforço mental. Desenvolvedores de inteligência artificial e processamento de linguagem natural podem alimentar essa informação em modelos que imitam melhor a leitura humana, melhorando tarefas como tornar textos mais fáceis de ler ou prever quais palavras são mais difíceis de compreender. Em termos simples, Contos transforma os movimentos sutis dos olhos de leitores de espanhol em uma ferramenta compartilhada poderosa tanto para entender a mente quanto para criar tecnologias de linguagem mais humanizadas.

Citação: Travi, F., Bianchi, B., Slezak, D.F. et al. Cuentos: A Large-Scale Eye-Tracking Reading Corpus on Spanish Narrative Texts. Sci Data 13, 434 (2026). https://doi.org/10.1038/s41597-026-06798-z

Palavras-chave: rastreamento ocular, leitura, língua espanhola, processamento de linguagem natural, ciência cognitiva