Clear Sky Science · de

Lesbarkeitsbewertung englischer Übersetzungen chinesischer Klassiker: Eine Studie auf Basis von XGBoost und BP‑Neuronalnetzen

· Zurück zur Übersicht

Warum alte Weisheit noch klare englische Sprache braucht

Die Analekten des Konfuzius haben das chinesische Denken seit über zwei Jahrtausenden geprägt, dennoch finden viele englischsprachige Leser sie schwer zugänglich. Verschiedene Übersetzungen versuchen, dem Original treu zu bleiben und zugleich lesbar zu sein, doch es ist nicht offensichtlich, welche Fassungen für heutige Lesende leichter verständlich sind. Dieser Artikel verwendet moderne Sprachtechnologie und maschinelles Lernen, um die Lesbarkeit mehrerer englischer Übersetzungen der Analekten zu messen und bietet damit einen datenbasierten Blick darauf, wie klassische Werke über Sprachen und Kulturen hinweg vermittelt werden.

Figure 1
Figure 1.

Viele Stimmen für ein klassisches Werk

Die Studie konzentriert sich auf fünf vollständige englische Übersetzungen der Analekten, die zwischen dem 19. und 21. Jahrhundert von James Legge, William Jennings, D. C. Lau, Edward Slingerland und Burton Watson erstellt wurden. Alle fünf Übersetzer arbeiteten vom selben klassisch-chinesischen Original, trafen jedoch unterschiedliche stilistische und interpretative Entscheidungen. Um fair vergleichen zu können, teilten die Autor:innen jede Übersetzung in 1412 kurze Zeilen, die ungefähr der traditionellen Gliederung der Aussprüche im chinesischen Text entsprechen. Drei Übersetzungen wurden zum Trainieren der Modelle verwendet, und zwei wurden zurückgehalten, um zu testen, wie gut die Modelle neue Passagen bewerten können.

Sätze in messbare Signale verwandeln

Statt sich auf eine einzelne bekannte Formel wie den Flesch Reading Ease zu stützen, bauten die Forschenden ein deutlich reichhaltigeres Set von 114 Indikatoren für jede Zeile des Korpus auf. Einige waren traditionelle Lesbarkeitsformeln, die grundlegende Merkmale wie Satzlänge und durchschnittliche Wortlänge betrachten. Andere erfassten Wortschatzmerkmale, etwa wie viele lange oder seltene Wörter vorkommen, wie variantenreich die Wortwahl ist und wie dicht die Informationsmenge ist. Eine dritte Gruppe beschrieb die Satzstruktur, zum Beispiel wie viele Nebensätze ein Satz enthält oder wie oft bestimmte grammatische Muster auftreten. Schließlich fügten sie eine moderne Komponente hinzu: Ein großes Sprachmodell (BERT) schätzte, wie semantisch „typisch“ jede Zeile im Vergleich zum Rest des Korpus ist und lieferte so einen kompakten Index für Bedeutungskohärenz.

Maschinen beibringen, Schwierigkeit zu erkennen

Mit diesen Indikatoren trainierten die Autor:innen zwei Modelle des maschinellen Lernens — ein XGBoost-Modell und ein einfaches Backpropagation‑Neuronales Netz — um zusammengesetzte Lesbarkeitswerte für jede Zeile vorherzusagen. Diese Zielwerte basierten auf der kombinierten Ausgabe von neun traditionellen Formeln, was den Modellen ein stabiles Lernziel bot. Vor dem Training untersuchten sie, wie stark jeder Indikator mit den Scores korreliert. Zeilen, die viele lange, mehrsilbige oder fachlich schwierige Wörter enthielten, wurden tendenziell als schwerer eingestuft, ebenso Zeilen mit mehr Zeichen und komplexeren Satzstrukturen. Demgegenüber spielten einige feinere grammatische Zählungen nur eine geringe Rolle. Beide Modelle reproduzierten die Trainingsmuster auf den gehaltenen Daten sehr gut, was darauf hindeutet, dass diese Merkmalmischung vieles davon erfasst, was einen Abschnitt der Analekten leichter oder schwerer lesbar macht.

Figure 2
Figure 2.

Übersetzer im Vergleich: auf einen Blick und im Detail

Nach dem Training ließen die Forschenden die Modelle über die beiden Testübersetzungen von Slingerland und Watson laufen. Auf breiter Ebene gruppierten sie die vorhergesagten Scores in Bänder von am leichtesten bis am schwersten und zählten, wie viele Zeilen jeder Übersetzung in jedes Band fielen. Watsons Wiedergabe erwies sich insgesamt als etwas leichter: Mehr seiner Zeilen landeten in den hoch lesbaren Bändern, während Slingerlands Version häufiger längere Sätze und elaboriertere Formulierungen verwendete. Auf einer feineren Ebene betrachtete das Team einzelne Aussprüche, bei denen die beiden Übersetzer stark voneinander abwichen. In diesen Fällen kombinierten schwerere Zeilen typischerweise mehrere Faktoren — längere Sätze, verschachtelte Nebensätze, abstrakten oder seltenen Wortschatz und dichte Anmerkungen in einer einzigen Zeile —, während leichtere Zeilen kürzere, direktere Formulierungen und einfachere Wortwahl bevorzugten.

Was die Ergebnisse für Leser und Übersetzer bedeuten

Für nicht‑fachliche Leser, die Konfuzius auf Englisch begegnen möchten, legt die Studie nahe, dass einige Übersetzungen einen sanfteren Zugang bieten als andere, zumindest hinsichtlich des reinen Leseaufwands. Für Übersetzer und Wissenschaftler zeigt sie, wie quantitative Werkzeuge das traditionelle Close Reading ergänzen können, indem sie Muster von Schwierigkeit über Tausende von Zeilen sichtbar machen. Die Autor:innen betonen, dass Lesbarkeit nur ein Aspekt einer guten Übersetzung ist; Treue zum ursprünglichen Sinn und literarischer Stil sind ebenfalls wichtig. Dennoch zeigt diese Arbeit, wie Satzlänge, -struktur und Wortwahl das Leseerlebnis der Analekten in englischer Übersetzung prägen, und weist damit auf zugänglichere Ausgaben chinesischer Klassiker und letztlich auf klarere interkulturelle Gespräche hin.

Zitation: Yang, L., Zhou, G. Readability assessment of English translations of Chinese classics: a study based on XGBoost and BP neural networks. Humanit Soc Sci Commun 13, 588 (2026). https://doi.org/10.1057/s41599-026-06878-w

Schlüsselwörter: Textlesbarkeit, Maschinelles Lernen, Konfuzius, Analekten, literarische Übersetzung, Verarbeitung natürlicher Sprache