Clear Sky Science · de
Bewertung literarischer Übersetzungen durch große Sprachmodelle: eine multidimensionale Qualitätsbewertung von Shen Congwens Grenzstadt
Warum diese Studie für Leser und Autorinnen wichtig ist
Mit dem Einzug von Tools wie ChatGPT und anderen großen Sprachmodellen in den Alltag stellt sich eine einfache Frage: Können diese Systeme wirklich menschliche Übersetzer ersetzen, gerade bei geliebten Romanen? Diese Studie nähert sich der Frage systematisch, indem sie untersucht, wie mehrere führende KI‑Modelle Shen Congwens Klassiker Border Town ins Englische übersetzen und diese Versionen mit einer anerkannten Humanübersetzung vergleicht.
Eine Dorfgeschichte trifft künstliche Intelligenz
Border Town ist berühmt für seine einfühlsame Darstellung des ländlichen Lebens im Südwesten Chinas, seine poetische Sprache und das dichte Netz lokaler Bräuche und Glaubensvorstellungen. Diese Merkmale machen den Roman zu einem idealen Prüfstein: Übersetzerinnen müssen nicht nur wiedergeben, wer was getan hat, sondern auch das Gefühl von Nebel über Flussbooten, den Rhythmus von Volksliedern und das Gewicht traditioneller Werte einfangen. Die Autorinnen und Autoren wählten die ersten beiden Kapitel des Romans und sammelten fünf englische Fassungen: vier, die von großen Sprachmodellen erzeugt wurden (GPT‑4, GPT‑4o, Gemini und das chinesische System WXYY 4.0 Turbo), sowie eine von dem Akademiker und Übersetzer Jeffrey Kinkley, dessen Fassung von 2009 weithin für ihre stilistische und kulturelle Sensibilität gelobt wird.

Wie die Übersetzungen bewertet wurden
Um über ein rein intuitives Gefühl dafür hinauszukommen, was «richtig klingt», nutzten die Forschenden einen detaillierten Rahmen namens Multidimensional Quality Metrics. Statt nur zu prüfen, ob die Wortwahl dem Original entspricht, sortiert dieser Ansatz Fehler nach Typen und bewertet ihre Schwere. Das Team konzentrierte sich auf drei zentrale Fragen: Ist die Bedeutung akkurat? Bleibt die Version dem Ton und Erzählstil der Autorin treu? Und behandelt sie kulturelle Details so, dass Leserinnen ihren Sinn verstehen, ohne ihren ursprünglichen Charakter zu verwässern? Vor diesem Hintergrund verglichen zwei geschulte Annotatorinnen jeden Satz des chinesischen Textes mit jeder Übersetzung und markierten fünf Hauptfehlerarten: Fehlübersetzung, Auslassung, Überübersetzung (Hinzufügen unnötigen Materials), kulturelle Fehlübersetzung und weiter gefasste diskursbezogene Probleme, die den Erzählfluss schädigen.
Wo die Maschinen stolpern
Die Ergebnisse zeigen klare Muster. Alle vier KI‑Systeme lieferten flüssiges Englisch, verfehlten jedoch häufig entscheidende Nuancen. Fehlübersetzungen waren das häufigste Problem insgesamt: So wurden etwa alte Kupfermünzen zu modern klingendem „cash“ – wodurch das historische Flair des Dorfes leise verändert wurde. Gemini ließ am meisten Material weg und übersprang mitunter beschreibende Formulierungen, die Figuren verknüpfen oder Atmosphäre schaffen. GPT‑4 fügte öfter wertende Sprache hinzu und verwandelte einen zurückhaltenden Liebesverweis in ein regelrechtes „Affair“, was die Leserperspektive auf die Figuren verändert. Kulturelle Referenzen erwiesen sich als besonders zerbrechlich: Alltägliche Gegenstände, die mit rituellem Leben verbunden sind, wie Weihrauch und Kerzen, oder der Name eines legendären Helden wurden häufig abgeflacht, modernisiert oder zu wörtlich behandelt. Auf Absatzebene rekonstruierten einige Modelle subtil, wer in einer Metapher oder Szene im Zentrum steht, und schwächten so zentrale Beziehungen, etwa die emotionale Bindung zwischen dem Mädchen Cuicui und ihrem Großvater.
Ein genauerer Blick auf relative Stärken
Nicht alle Systeme schnitten gleich ab. GPT‑4o, ein neueres und stärker optimiertes Modell, machte in nahezu jeder Kategorie konstant weniger Fehler als GPT‑4, was darauf hindeutet, dass feines Tuning wichtiger sein kann als die bloße Modellgröße. Es ließ weniger Inhalte aus, übersetzte weniger Phrasen falsch und hielt die Erzählung tendenziell über Satzgrenzen hinweg besser zusammen. Gemini zeigte seine größte Schwäche beim Weglassen von Inhalten, besonders in Passagen, die reich an Bildern und kulturellen Andeutungen sind. WXYY 4.0 Turbo, trotz seiner Ausbildung im chinesischen Kontext, übertraf seine ausländischen Gegenstücke bei kulturintensiven Passagen nicht eindeutig; es behandelte einige historische und rituelle Begriffe weiterhin wie gewöhnliche moderne Objekte. Über alle Maschinenfassungen hinweg blieb die menschliche Übersetzung am zuverlässigsten beim Verweben von Bedeutung, Stimmung und Kultur.

Was das für die Zukunft des Lesens in Übersetzung bedeutet
Für Alltagsaufgaben und unkomplizierte Texte bieten große Sprachmodelle bereits beeindruckende Unterstützung. Diese Studie zeigt jedoch: Bei literarischen Werken wie Border Town verpassen sie weiterhin entscheidende Schichten von Sinn und Gefühl. Das am besten abschneidende Modell, GPT‑4o, kommt anderen näher, braucht aber weiterhin menschliche Aufsicht, besonders dort, wo Kultur und Erzählstruktur ins Spiel kommen. Die Autorinnen und Autoren argumentieren, dass bessere Prompts, gezielteres Training und systematisches menschliches Post‑Editing unerlässlich sind, wenn KI literarische Übersetzerinnen unterstützen – statt sie zu ersetzen. Für Leserinnen ist die Botschaft klar: Maschinelle Resultate können als nützlicher Entwurf oder Hilfe dienen, doch das volle emotionale und kulturelle Leben eines Romans bleibt auf menschliche Kunstfertigkeit angewiesen.
Zitation: Yang, W., Yang, M. Evaluating literary translation by large language models: a multidimensional quality assessment of Shen Congwen’s Border Town. Humanit Soc Sci Commun 13, 628 (2026). https://doi.org/10.1057/s41599-026-06868-y
Schlüsselwörter: literarische Übersetzung, große Sprachmodelle, Qualität maschineller Übersetzung, chinesische Literatur, kulturelle Nuancen