Clear Sky Science · sv
Läsbarhetsbedömning av engelska översättningar av kinesiska klassiker: en studie baserad på XGBoost och BP-neurala nätverk
Varför forntida visdom fortfarande behöver klar engelska
Konfucius Analekter har format kinesiskt tänkande i mer än två millennia, men många engelskspråkiga läsare har fortfarande svårt att följa texten. Olika översättningar försöker vara trogna originalet samtidigt som de är läsbara, men det är inte självklart vilka versioner som är lättare för dagens publik att förstå. Denna artikel använder modern språk‑ och maskinteknologi för att mäta hur läsbara flera engelska översättningar av Analekterna är, och erbjuder ett datadrivet sätt att tänka kring hur klassiska verk rör sig över språk och kulturer.

Många röster för en klassiker
Studien fokuserar på fem fullständiga engelska översättningar av Analekterna, framtagna mellan 1800‑talet och 2000‑talet av James Legge, William Jennings, D. C. Lau, Edward Slingerland och Burton Watson. Alla fem översättare arbetade från samma klassiska kinesiska original, men gjorde olika stilistiska och tolkningsmässiga val. För att jämföra dem rättvist delade författarna upp varje översättning i 1412 korta rader som ungefär motsvarar den traditionella indelningen av ordspråk i den kinesiska texten. Tre översättningar användes för att träna deras modeller, och två hölls tillbaka för att testa hur väl modellerna kunde bedöma nya avsnitt.
Att göra meningar mätbara
I stället för att förlita sig på en enda välkänd formel som Flesch Reading Ease byggde forskarna upp en mycket rikare uppsättning med 114 indikatorer för varje rad i korpusen. Några var traditionella läsbarhetsformler som tittar på grundläggande drag som meningslängd och genomsnittlig ordstorlek. Andra fångade vokabulärsdrag, till exempel hur många långa eller sällsynta ord som förekommer, hur varierat ordvalet är och hur tät informationen är. En tredje grupp beskrev satsstruktur, till exempel hur många satser en mening innehåller eller hur ofta vissa grammatiska mönster uppträder. Slutligen lade de till en modern detalj: en stor språkmodell (BERT) uppskattade hur semantiskt ”typisk” varje rad är jämfört med resten av korpusen, vilket gav ett kompakt index för betydelsenivåns koherens.
Att lära maskiner att uppfatta svårighet
Med dessa indikatorer tränade författarna två maskininlärningsmodeller—en XGBoost‑modell och ett enkelt backpropagation‑neuralt nätverk—för att förutsäga sammansatta läsbarhetspoäng för varje rad. Dessa poäng baserades på den kombinerade utsignalen från nio traditionella formler, vilket gav modellerna ett stabilt mål att lära sig från. Innan träning granskade de hur starkt varje indikator korrelerade med poängen. Rader fyllda med långa, flerstaviga eller fackmässigt svåra ord tenderade att bedömas som svårare, liksom rader med fler tecken och mer komplex meningsbyggnad. Däremot spelade vissa finmaskiga grammatiska räkningar bara en måttlig roll. Båda maskinmodellerna reproducerade träningsmönstren mycket väl på out‑of‑sample‑data, vilket tyder på att denna mix av funktioner fångar mycket av vad som gör ett avsnitt ur Analekterna lätt eller svårt att läsa.

Jämföra översättare översiktligt och i detalj
När modellerna var tränade släppte forskarna dem på de två testöversättningarna av Slingerland och Watson. På en övergripande nivå grupperade de förutsagda poängen i band från lättast till svårast och räknade hur många rader från varje översättning som hamnade i varje band. Watsons version framträdde som något lättare i stort: fler av hans rader landade i de höga läsbarhetsbanden, medan Slingerlands ofta använde längre meningar och mer utstuderat ordval. På en finare nivå studerade teamet enskilda ordspråk där de två översättarna skilde sig markant. I dessa fall kombinerade svårare rader typiskt flera faktorer—längre meningar, inbäddade satser, abstrakt eller sällsynt vokabulär och tät kommentering packad i en enda rad—medan lättare rader tenderade att föredra kortare, mer direkta uttryck och enklare ordval.
Vad fynden betyder för läsare och översättare
För icke‑specialistiska läsare som vill närma sig Konfucius på engelska antyder studien att vissa översättningar erbjuder en smidigare väg än andra, åtminstone vad gäller ren läsinsats. För översättare och forskare visar den hur kvantitativa verktyg kan komplettera traditionell närläsning genom att synliggöra svårighetsmönster över tusentals rader. Författarna betonar att läsbarhet bara är en aspekt av en bra översättning; trohet mot originalets mening och literära stil är också viktiga. Ändå pekar arbetet, genom att visa hur meningslängd, struktur och ordval formar upplevelsen av att läsa Analekterna på engelska, mot mer tillgängliga utgåvor av kinesiska klassiker och slutligen mot klarare tvärkulturella samtal.
Citering: Yang, L., Zhou, G. Readability assessment of English translations of Chinese classics: a study based on XGBoost and BP neural networks. Humanit Soc Sci Commun 13, 588 (2026). https://doi.org/10.1057/s41599-026-06878-w
Nyckelord: textläsbarhet, maskininlärning, Konfucius Analekter, litterär översättning, bearbetning av naturligt språk