Clear Sky Science · fr
Évaluation de la lisibilité des traductions anglaises des classiques chinois : une étude basée sur XGBoost et des réseaux neuronaux BP
Pourquoi la sagesse ancienne a encore besoin d’un anglais clair
Les Entretiens de Confucius ont façonné la pensée chinoise pendant plus de deux millénaires, et pourtant de nombreux lecteurs anglophones les trouvent encore difficiles à suivre. Différentes traductions cherchent à rester fidèles à l’original tout en étant lisibles, mais il n’est pas évident quelles versions sont plus accessibles pour les publics d’aujourd’hui. Cet article utilise les technologies linguistiques modernes et l’apprentissage automatique pour mesurer la lisibilité de plusieurs traductions anglaises des Entretiens, offrant une approche fondée sur les données pour réfléchir à la circulation des œuvres classiques entre langues et cultures.

Plusieurs voix pour un même livre classique
L’étude se concentre sur cinq traductions complètes anglaises des Entretiens, réalisées entre le XIXe et le XXIe siècle par James Legge, William Jennings, D. C. Lau, Edward Slingerland et Burton Watson. Les cinq traducteurs travaillent à partir du même original en chinois classique, mais ils ont pris des choix stylistiques et interprétatifs différents. Pour les comparer équitablement, les auteurs ont découpé chaque traduction en 1 412 courtes lignes qui correspondent approximativement à la division traditionnelle des maximes dans le texte chinois. Trois traductions ont servi à l’apprentissage des modèles, et deux ont été réservées pour tester la capacité des modèles à évaluer de nouveaux passages.
Transformer les phrases en signaux mesurables
Plutôt que de se reposer sur une seule formule familière comme l’indice de lisibilité de Flesch, les chercheurs ont construit un ensemble beaucoup plus riche de 114 indicateurs pour chaque ligne du corpus. Certains étaient des formules de lisibilité traditionnelles portant sur des traits de base comme la longueur des phrases et la taille moyenne des mots. D’autres capturaient des caractéristiques de vocabulaire, telles que le nombre de mots longs ou rares, la variété lexicale et la densité d’information. Un troisième groupe décrivait la structure des phrases, par exemple le nombre de propositions contenues dans une phrase ou la fréquence de certains schémas grammaticaux. Enfin, ils ont ajouté une touche moderne : un grand modèle linguistique (BERT) a estimé à quel point chaque ligne est sémantiquement « typique » par rapport au reste du corpus, fournissant un indice compact de cohérence au niveau du sens.
Apprendre aux machines à percevoir la difficulté
À partir de ces indicateurs, les auteurs ont entraîné deux modèles d’apprentissage automatique — un modèle XGBoost et un réseau neuronal à rétropropagation simple — pour prédire des scores de lisibilité composites pour chaque ligne. Ces scores étaient basés sur la sortie combinée de neuf formules traditionnelles, offrant aux modèles une cible stable à apprendre. Avant l’entraînement, ils ont examiné la corrélation de chaque indicateur avec les scores. Les lignes contenant beaucoup de mots longs, multisyllabiques ou techniquement difficiles avaient tendance à être notées comme plus ardues, de même que les lignes comportant plus de caractères au total et des structures de phrase plus complexes. En revanche, certains comptes grammaticaux fins ne jouaient qu’un rôle modeste. Les deux modèles ont reproduit les schémas appris de manière très fiable sur des données tenues à l’écart, ce qui suggère que ce mélange de caractéristiques capture en grande partie ce qui rend un passage des Entretiens facile ou difficile à lire.

Comparer les traducteurs d’un coup d’œil et en détail
Une fois entraînés, les modèles ont été appliqués aux deux traductions test de Slingerland et Watson. À un niveau global, les chercheurs ont regroupé les scores prédits en bandes allant du plus facile au plus difficile et ont compté combien de lignes de chaque traduction tombaient dans chaque bande. La version de Watson est apparue légèrement plus facile dans l’ensemble : un plus grand nombre de ses lignes figuraient dans les bandes de haute lisibilité, tandis que la traduction de Slingerland utilisait plus souvent des phrases longues et un vocabulaire plus élaboré. À un niveau plus fin, l’équipe a examiné des maximes individuelles où les deux traducteurs divergeaient fortement. Dans ces cas, les lignes plus difficiles combinaient typiquement plusieurs facteurs — phrases plus longues, propositions imbriquées, vocabulaire abstrait ou rare, et commentaires denses concentrés en une seule ligne — tandis que les lignes plus faciles privilégiaient des formulations plus courtes et directes et des choix lexicaux plus simples.
Ce que signifient les résultats pour les lecteurs et les traducteurs
Pour les lecteurs non spécialistes qui souhaitent aborder Confucius en anglais, l’étude suggère que certaines traductions offrent un cheminement plus fluide que d’autres, du moins en termes d’effort de lecture brut. Pour les traducteurs et les universitaires, elle montre comment des outils quantitatifs peuvent compléter la lecture attentive traditionnelle en rendant visibles des motifs de difficulté à l’échelle de milliers de lignes. Les auteurs insistent sur le fait que la lisibilité n’est qu’un aspect d’une bonne traduction ; la fidélité au sens original et au style littéraire compte également. Néanmoins, en révélant comment la longueur des phrases, la structure et le choix des mots façonnent l’expérience de lecture des Entretiens en anglais, ce travail ouvre la voie à des éditions plus accessibles des classiques chinois et, au bout du compte, à des échanges interculturels plus clairs.
Citation: Yang, L., Zhou, G. Readability assessment of English translations of Chinese classics: a study based on XGBoost and BP neural networks. Humanit Soc Sci Commun 13, 588 (2026). https://doi.org/10.1057/s41599-026-06878-w
Mots-clés: lisibilité du texte, apprentissage automatique, Les Entretiens de Confucius, traduction littéraire, traitement du langage naturel