Clear Sky Science · pt
Avaliação da legibilidade de traduções em inglês de clássicos chineses: um estudo baseado em XGBoost e redes neurais BP
Por que a sabedoria antiga ainda precisa de um inglês claro
Os Analectos de Confúcio moldaram o pensamento chinês por mais de dois milênios, mas muitos leitores em inglês ainda os acham difíceis de acompanhar. Diferentes traduções tentam ser fiéis ao original ao mesmo tempo que permanecem legíveis, mas não é óbvio quais versões são mais fáceis de entender para o público atual. Este artigo usa tecnologia linguística moderna e aprendizado de máquina para medir quão legíveis são várias traduções em inglês dos Analectos, oferecendo uma maneira orientada por dados de pensar sobre como obras clássicas viajam entre línguas e culturas.

Muitas vozes para um livro clássico
O estudo foca em cinco traduções completas para o inglês dos Analectos, produzidas entre os séculos XIX e XXI por James Legge, William Jennings, D. C. Lau, Edward Slingerland e Burton Watson. Todos os cinco tradutores trabalharam a partir do mesmo original em chinês clássico, mas fizeram escolhas estilísticas e interpretativas diferentes. Para compará‑los de forma justa, os autores dividiram cada tradução em 1412 linhas curtas que correspondem aproximadamente à divisão tradicional dos ditos no texto chinês. Três traduções foram usadas para treinar os modelos, e duas foram reservadas para testar quão bem esses modelos podiam avaliar trechos novos.
Transformando frases em sinais mensuráveis
Em vez de confiar em uma única fórmula familiar como o Flesch Reading Ease, os pesquisadores construíram um conjunto muito mais rico de 114 indicadores para cada linha do corpus. Alguns eram fórmulas tradicionais de legibilidade que observam traços básicos, como comprimento da frase e tamanho médio das palavras. Outros capturavam características de vocabulário, como quantas palavras longas ou raras aparecem, quão variado é o repertório lexical e qual a densidade de informação. Um terceiro grupo descrevia a estrutura da frase, por exemplo quantas orações subordinadas uma frase contém ou com que frequência certos padrões gramaticais ocorrem. Por fim, acrescentaram um toque moderno: um grande modelo de linguagem (BERT) estimou quão semanticamente “típica” cada linha é em comparação com o restante do corpus, fornecendo um índice compacto de coerência em nível de significado.
Ensinando máquinas a perceber dificuldade
Com esses indicadores, os autores treinaram dois modelos de aprendizado de máquina — um modelo XGBoost e uma rede neural de retropropagação simples — para prever escores compostos de legibilidade para cada linha. Esses escores foram baseados na saída combinada de nove fórmulas tradicionais, dando aos modelos um alvo estável para aprender. Antes do treinamento, eles examinaram quão fortemente cada indicador se correlacionava com os escores. Linhas repletas de palavras longas, multisilábicas ou tecnicamente difíceis tenderam a ser avaliadas como mais difíceis, assim como linhas com mais caracteres no total e estruturas frasais mais complexas. Em contraste, algumas contagens gramaticais de detalhe tiveram papel apenas modesto. Ambos os modelos de aprendizado de máquina reproduziram os padrões de treinamento muito bem sobre dados retidos, sugerindo que essa mistura de características captura grande parte do que torna um trecho dos Analectos mais fácil ou mais difícil de ler.

Comparando tradutores de relance e de perto
Uma vez treinados, os modelos foram aplicados às duas traduções de teste, de Slingerland e Watson. Em termos gerais, os pesquisadores agruparam os escores previstos em faixas do mais fácil ao mais difícil e contaram quantas linhas de cada tradução caíam em cada faixa. A versão de Watson saiu ligeiramente mais fácil no conjunto: mais de suas linhas ficaram nas faixas de alta legibilidade, enquanto a de Slingerland usou sentenças mais longas e formulou enunciados mais elaborados com maior frequência. Em nível mais fino, a equipe examinou ditos individuais onde os dois tradutores divergiram fortemente. Nesses casos, linhas mais difíceis tipicamente combinavam vários fatores — frases mais longas, orações aninhadas, vocabulário abstrato ou raro e comentários densos concentrados em uma única linha — enquanto linhas mais fáceis tendiam a favorecer formulações mais curtas, diretas e escolhas vocabulares mais simples.
O que as descobertas significam para leitores e tradutores
Para leitores não especializados que desejam se aproximar de Confúcio em inglês, o estudo sugere que algumas traduções oferecem um caminho mais suave do que outras, ao menos em termos de esforço bruto de leitura. Para tradutores e acadêmicos, mostra como ferramentas quantitativas podem complementar a leitura atenta tradicional, tornando visíveis padrões de dificuldade ao longo de milhares de linhas. Os autores enfatizam que legibilidade é apenas um aspecto de uma boa tradução; fidelidade ao sentido original e ao estilo literário também importam. Ainda assim, ao revelar como o comprimento da frase, a estrutura e a escolha de palavras moldam a experiência de ler os Analectos em inglês, este trabalho aponta para edições mais acessíveis dos clássicos chineses e, em última instância, para conversas interculturais mais claras.
Citação: Yang, L., Zhou, G. Readability assessment of English translations of Chinese classics: a study based on XGBoost and BP neural networks. Humanit Soc Sci Commun 13, 588 (2026). https://doi.org/10.1057/s41599-026-06878-w
Palavras-chave: legibilidade de texto, aprendizado de máquina, Analectos de Confúcio, tradução literária, processamento de linguagem natural