Clear Sky Science · it

Valutazione della leggibilità delle traduzioni in inglese dei classici cinesi: uno studio basato su XGBoost e reti neurali BP

2026-03-15 · Torna all'indice

Perché la saggezza antica ha ancora bisogno di un inglese chiaro

Gli Analetti di Confucio hanno plasmato il pensiero cinese per oltre due millenni, eppure molti lettori inglesi continuano a trovarli difficili da seguire. Diverse traduzioni cercano di restare fedeli all’originale pur risultando leggibili, ma non è immediato quali versioni siano più facili da comprendere per il pubblico odierno. Questo articolo utilizza tecnologie linguistiche moderne e apprendimento automatico per misurare la leggibilità di varie traduzioni inglesi degli Analetti, offrendo un approccio basato sui dati per riflettere su come le opere classiche si trasferiscono tra lingue e culture.

Molte voci per un unico libro classico

Lo studio si concentra su cinque traduzioni complete in inglese degli Analetti, realizzate tra il XIX e il XXI secolo da James Legge, William Jennings, D. C. Lau, Edward Slingerland e Burton Watson. Tutti e cinque i traduttori lavoravano dallo stesso originale in cinese classico, ma hanno adottato scelte stilistiche e interpretative diverse. Per confrontarli in modo equo, gli autori hanno suddiviso ogni traduzione in 1412 brevi righe che corrispondono approssimativamente alla divisione tradizionale dei detti nel testo cinese. Tre traduzioni sono state usate per addestrare i modelli, e due sono state tenute da parte per testare quanto bene quei modelli potessero valutare nuovi brani.

Trasformare le frasi in segnali misurabili

Invece di affidarsi a una singola formula nota come Flesch Reading Ease, i ricercatori hanno costruito un insieme molto più ricco di 114 indicatori per ogni riga del corpus. Alcuni erano formule tradizionali di leggibilità che osservano tratti di base come la lunghezza della frase e la dimensione media delle parole. Altri catturavano caratteristiche del vocabolario, come quante parole lunghe o rare compaiono, quanto è varia la scelta lessicale e quanto densa è l’informazione. Un terzo gruppo descriveva la struttura della frase, per esempio quante proposizioni contiene una frase o quanto spesso compaiono certi schemi grammaticali. Infine, è stato aggiunto un tocco moderno: un grande modello linguistico (BERT) ha stimato quanto ogni riga sia semanticamente “tipica” rispetto al resto del corpus, fornendo un indice compatto della coerenza a livello di significato.

Insegnare alle macchine a percepire la difficoltà

Utilizzando questi indicatori, gli autori hanno addestrato due modelli di apprendimento automatico — un modello XGBoost e una semplice rete neurale con retropropagazione — per prevedere punteggi compositi di leggibilità per ogni riga. Questi punteggi si basavano sull’output combinato di nove formule tradizionali, dando ai modelli un obiettivo stabile da apprendere. Prima dell’addestramento hanno esaminato quanto ogni indicatore fosse correlato ai punteggi. Le righe ricche di parole lunghe, multisillabiche o tecnicamente complesse tendevano a essere valutate come più difficili, così come le righe con più caratteri totali e strutture frasali più complesse. Al contrario, alcuni conteggi grammaticali di dettaglio avevano solo un ruolo modesto. Entrambi i modelli di apprendimento automatico hanno riprodotto molto bene i modelli osservati durante l’addestramento sui dati non visti, suggerendo che questa combinazione di caratteristiche cattura gran parte di ciò che rende un passaggio degli Analetti facile o difficile da leggere.

Confrontare i traduttori a colpo d’occhio e nel dettaglio

Una volta addestrati, i modelli sono stati applicati alle due traduzioni di prova di Slingerland e Watson. A livello generale, i ricercatori hanno raggruppato i punteggi previsti in fasce dalla più facile alla più difficile e hanno contato quante righe di ciascuna traduzione rientravano in ogni fascia. La resa di Watson è risultata leggermente più facile nel complesso: più sue righe sono finite nelle fasce di alta leggibilità, mentre la versione di Slingerland ha usato più spesso frasi più lunghe e formulazioni più elaborate. A un livello più fine, il team ha esaminato detti individuali in cui i due traduttori divergono nettamente. In questi casi, le righe più difficili tipicamente combinavano diversi fattori — frasi più lunghe, proposizioni annidate, vocabolario astratto o raro e commento denso condensato in una singola riga — mentre le righe più facili tendevano a privilegiare frasi più brevi, una formulazione più diretta e scelte lessicali più semplici.

Che cosa significano i risultati per lettori e traduttori

Per i lettori non specialisti che vogliono avvicinarsi a Confucio in inglese, lo studio suggerisce che alcune traduzioni offrono un percorso più agevole rispetto ad altre, almeno in termini di sforzo di lettura grezzo. Per i traduttori e gli studiosi, mostra come strumenti quantitativi possano affiancare la lettura ravvicinata tradizionale rendendo visibili schemi di difficoltà su migliaia di righe. Gli autori sottolineano che la leggibilità è solo un aspetto di una buona traduzione; anche la fedeltà al significato originale e lo stile letterario sono importanti. Tuttavia, rivelando come la lunghezza della frase, la struttura e la scelta delle parole plasmino l’esperienza di lettura degli Analetti in inglese, questo lavoro indica la strada verso edizioni più accessibili dei classici cinesi e, in ultima analisi, verso conversazioni interculturali più chiare.

Citazione: Yang, L., Zhou, G. Readability assessment of English translations of Chinese classics: a study based on XGBoost and BP neural networks. Humanit Soc Sci Commun 13, 588 (2026). https://doi.org/10.1057/s41599-026-06878-w

Parole chiave: leggibilità del testo, apprendimento automatico, Analetti di Confucio, traduzione letteraria, elaborazione del linguaggio naturale