Clear Sky Science · es
Evaluación de la legibilidad de las traducciones al inglés de los clásicos chinos: un estudio basado en XGBoost y redes neuronales BP
Por qué la sabiduría antigua aún necesita un inglés claro
Los Analectos de Confucio han moldeado el pensamiento chino durante más de dos milenios, pero muchos lectores en inglés todavía los encuentran difíciles de seguir. Diferentes traducciones intentan ser fieles al original a la vez que resultan legibles, pero no está claro qué versiones son más fáciles de entender para las audiencias actuales. Este artículo utiliza tecnología lingüística moderna y aprendizaje automático para medir la legibilidad de varias traducciones al inglés de Los Analectos, ofreciendo una manera basada en datos de pensar cómo las obras clásicas viajan entre lenguas y culturas.

Muchas voces para un libro clásico
El estudio se centra en cinco traducciones completas al inglés de Los Analectos, producidas entre los siglos XIX y XXI por James Legge, William Jennings, D. C. Lau, Edward Slingerland y Burton Watson. Los cinco traductores trabajaron a partir del mismo original en chino clásico, pero hicieron elecciones estilísticas e interpretativas diferentes. Para compararlas de forma justa, los autores dividieron cada traducción en 1.412 líneas cortas que coinciden aproximadamente con la división tradicional de dichos en el texto chino. Tres traducciones se utilizaron para entrenar sus modelos y dos se reservaron para probar qué tan bien esos modelos podían evaluar pasajes nuevos.
Convertir oraciones en señales medibles
En lugar de confiar en una sola fórmula conocida como Flesch Reading Ease, los investigadores construyeron un conjunto mucho más rico de 114 indicadores para cada línea del corpus. Algunos fueron fórmulas de legibilidad tradicionales que examinan rasgos básicos como la longitud de la oración y el tamaño medio de las palabras. Otros capturaron características de vocabulario, como cuántas palabras largas o raras aparecen, cuán variada es la elección de palabras y cuán densa es la información. Un tercer grupo describió la estructura de la frase, por ejemplo cuántas cláusulas contiene una oración o con qué frecuencia ocurren ciertos patrones gramaticales. Finalmente, añadieron un giro moderno: un gran modelo de lenguaje (BERT) estimó cuán «típica» es cada línea semánticamente en comparación con el resto del corpus, proporcionando un índice compacto de coherencia a nivel de significado.
Enseñar a las máquinas a percibir la dificultad
Utilizando estos indicadores, los autores entrenaron dos modelos de aprendizaje automático—un modelo XGBoost y una red neuronal de retropropagación simple—para predecir puntuaciones compuestas de legibilidad para cada línea. Esas puntuaciones se basaron en la salida combinada de nueve fórmulas tradicionales, brindando a los modelos un objetivo estable a partir del cual aprender. Antes del entrenamiento, examinaron qué tan fuertemente se correlacionaba cada indicador con las puntuaciones. Las líneas llenas de palabras largas, polisilábicas o técnicamente difíciles tendían a ser valoradas como más complejas, al igual que las líneas con más caracteres totales y estructuras de oración más complejas. En contraste, algunos recuentos gramaticales muy detallados jugaron solo un papel modesto. Ambos modelos reprodujeron los patrones del entrenamiento extremadamente bien en datos reservados, lo que sugiere que esta combinación de características captura gran parte de lo que hace que un pasaje de Los Analectos sea fácil o difícil de leer.

Comparar a los traductores de un vistazo y en detalle
Una vez entrenados, los modelos se aplicaron a las dos traducciones de prueba de Slingerland y Watson. A un nivel amplio, los investigadores agruparon las puntuaciones previstas en bandas desde las más fáciles hasta las más difíciles y contaron cuántas líneas de cada traducción caían en cada banda. La versión de Watson resultó ligeramente más fácil en general: más de sus líneas se ubicaron en las bandas de alta legibilidad, mientras que la de Slingerland empleó con más frecuencia oraciones más largas y una redacción más elaborada. A un nivel más fino, el equipo examinó dichos individuales donde los dos traductores divergían marcadamente. En esos casos, las líneas más difíciles combinaban típicamente varios factores: oraciones más largas, cláusulas anidadas, vocabulario abstracto o raro y comentarios densos empaquetados en una sola línea; las líneas más fáciles tendían a preferir frases más cortas y directas y elecciones léxicas más simples.
Qué significan los hallazgos para lectores y traductores
Para los lectores no especialistas que desean acercarse a Confucio en inglés, el estudio sugiere que algunas traducciones ofrecen un camino más fluido que otras, al menos en términos del esfuerzo de lectura bruto. Para traductores y académicos, muestra cómo las herramientas cuantitativas pueden complementar la lectura atenta tradicional al hacer visibles los patrones de dificultad a lo largo de miles de líneas. Los autores enfatizan que la legibilidad es solo un aspecto de una buena traducción; la fidelidad al significado original y al estilo literario también importan. Aun así, al revelar cómo la longitud de la oración, la estructura y la elección de palabras configuran la experiencia de leer Los Analectos en inglés, este trabajo apunta hacia ediciones más accesibles de los clásicos chinos y, en última instancia, hacia conversaciones interculturales más claras.
Cita: Yang, L., Zhou, G. Readability assessment of English translations of Chinese classics: a study based on XGBoost and BP neural networks. Humanit Soc Sci Commun 13, 588 (2026). https://doi.org/10.1057/s41599-026-06878-w
Palabras clave: legibilidad del texto, aprendizaje automático, Los analectos de Confucio, traducción literaria, procesamiento del lenguaje natural