Clear Sky Science · nl
Beoordeling van de leesbaarheid van Engelse vertalingen van Chinese klassiekers: een studie gebaseerd op XGBoost en BP-neurale netwerken
Waarom oude wijsheid nog steeds helderd Engels nodig heeft
De Analecten van Confucius hebben meer dan twee millennia het Chinese denken gevormd, maar veel Engelstalige lezers vinden het nog steeds lastig te volgen. Verschillende vertalingen proberen trouw te blijven aan het origineel en tegelijk leesbaar te zijn, maar het is niet vanzelfsprekend welke versies voor hedendaagse lezers het gemakkelijkst te begrijpen zijn. Dit artikel gebruikt moderne taalkundige technologie en machinaal leren om te meten hoe goed leesbaar meerdere Engelse vertalingen van De Analecten zijn, en biedt een datagedreven manier om na te denken over hoe klassieke werken zich over talen en culturen verplaatsen.

Veel stemmen voor één klassiek werk
De studie richt zich op vijf volledige Engelse vertalingen van De Analecten, gemaakt tussen de negentiende en eenentwintigste eeuw door James Legge, William Jennings, D. C. Lau, Edward Slingerland en Burton Watson. Alle vijf vertalers werkten vanuit hetzelfde Klassiek-Chinese origineel, maar zij maakten verschillende stilistische en interpretatieve keuzes. Om ze eerlijk te vergelijken, verdeelden de auteurs elke vertaling in 1412 korte regels die ruwweg overeenkomen met de traditionele verdeling van uitspraken in de Chinese tekst. Drie vertalingen werden gebruikt om hun modellen te trainen, en twee werden achtergehouden om te testen hoe goed die modellen nieuwe passages konden beoordelen.
Zinnen omzetten in meetbare signalen
In plaats van te vertrouwen op één bekend formule zoals Flesch Reading Ease, bouwden de onderzoekers een veel rijkere set van 114 indicatoren voor elke regel in het corpus. Sommige waren traditionele leesbaarheidsformules die naar basale eigenschappen kijken, zoals zinslengte en gemiddelde woordgrootte. Andere vingen woordenschatkenmerken op, bijvoorbeeld hoeveel lange of zeldzame woorden voorkomen, hoe gevarieerd de woordkeuze is en hoe dicht de informatie is. Een derde groep beschreef zinsstructuur, bijvoorbeeld hoeveel bijzinnen een zin bevat of hoe vaak bepaalde grammaticale patronen optreden. Tenslotte voegden ze een moderne wending toe: een groot taalmodel (BERT) schatte hoe semantisch “typisch” elke regel is vergeleken met de rest van het corpus, waardoor een compact index ontstond voor betekenisniveau-coherentie.
Machines leren moeilijkheid te voelen
Met deze indicatoren trainden de auteurs twee machine-learningmodellen — een XGBoost-model en een eenvoudig achterwaarts-propagatie-neuraal netwerk — om samengestelde leesbaarheidsscores voor elke regel te voorspellen. Die scores waren gebaseerd op de gecombineerde output van negen traditionele formules, waardoor de modellen een stabiel doel kregen om van te leren. Vooraf onderzochten ze hoe sterk elke indicator correleerde met de scores. Regels die vol zaten met lange, meerlettergrepige of technisch moeilijke woorden kregen doorgaans hogere moeilijkheidsscores, net als regels met meer totale tekens en complexere zinsstructuren. Daartegenover speelden sommige fijnmazige grammaticale tellingen slechts een bescheiden rol. Beide machine-learningmodellen reproduceerden de trainingspatronen buitengewoon goed op de achtergehouden data, wat suggereert dat deze mix van kenmerken veel van bepaalt wat een passage uit De Analecten makkelijk of moeilijk leesbaar maakt.

Vertalers vergelijken in één oogopslag en van dichtbij
Eens getraind, lieten de onderzoekers de modellen los op de twee testvertalingen van Slingerland en Watson. Op een algemeen niveau groeperen de onderzoekers de voorspelde scores in banden van makkelijkst tot moeilijkst en telden hoeveel regels van elke vertaling in elke band vielen. De weergave van Watson kwam overall iets gemakkelijker uit de bus: meer van zijn regels belandden in de hoge-leesbaarheid-banden, terwijl Slingerlands vertaling vaker langere zinnen en meer uitgewerkte bewoording gebruikte. Op een fijnere schaal keek het team naar individuele uitspraken waar de twee vertalers sterk van elkaar verschilden. In die gevallen combineerden de moeilijkere regels typisch meerdere factoren — langere zinnen, geneste bijzinnen, abstracte of zeldzame woordenschat en dichte commentaar in één regel — terwijl makkelijkere regels de voorkeur gaven aan kortere, directere formuleringen en eenvoudigere woordkeuze.
Wat de bevindingen betekenen voor lezers en vertalers
Voor niet-specialistische lezers die Confucius in het Engels willen benaderen, suggereert de studie dat sommige vertalingen een soepeler pad bieden dan andere, althans qua ruwe leesinspanning. Voor vertalers en wetenschappers laat het zien hoe kwantitatieve hulpmiddelen traditionele close reading kunnen aanvullen door patronen van moeilijkheid zichtbaar te maken over duizenden regels. De auteurs benadrukken dat leesbaarheid slechts één aspect van een goede vertaling is; trouw aan de oorspronkelijke betekenis en literaire stijl doen ook ter zake. Toch wijst dit werk, door te onthullen hoe zinslengte, structuur en woordkeuze de leeservaring van De Analecten in het Engels vormen, de weg naar toegankelijkere edities van Chinese klassiekers en uiteindelijk naar duidelijkere interculturele gesprekken.
Bronvermelding: Yang, L., Zhou, G. Readability assessment of English translations of Chinese classics: a study based on XGBoost and BP neural networks. Humanit Soc Sci Commun 13, 588 (2026). https://doi.org/10.1057/s41599-026-06878-w
Trefwoorden: tekstleesbaarheid, machinaal leren, Confucius Analecten, literaire vertaling, verwerking van natuurlijke taal