Clear Sky Science · de

Untersuchung der Leistungsfähigkeit von KI bei der Übersetzung literarischer Autobiografien: Inwieweit entsprechen KI-Modelle menschlichen Übersetzungen

2026-03-07 · Zurück zur Übersicht

Warum das für Alltagsleser wichtig ist

Die meisten von uns nutzen mittlerweile Online-Übersetzungswerkzeuge, und manche verwenden KI, um Romane oder Memoiren in fremden Sprachen zu lesen. Können diese Systeme aber wirklich die Emotion, den Rhythmus und die kulturelle Tiefe einer Lebensgeschichte einfangen? Diese Studie untersucht, wie drei verbreitete KI-Systeme und professionelle menschliche Übersetzer eine gefeierte chinesische literarische Autobiografie behandeln, und zeigt, wo Maschinen glänzen, wo sie stolpern und was das für Leser bedeutet, die Weltliteratur über einen Bildschirm begegnen.

Geschichten, die Sprachen überspringen

Die Forschenden konzentrieren sich auf The Great Flowing River, eine weithin gelobte chinesische Autobiografie, die persönliche Erinnerung mit der turbulenten Geschichte des Kriegschina und des Nachkriegs-Taiwan verwebt. Die englische Version entstand über Jahre durch ein Team erfahrener Übersetzer, die eng mit der Autorin zusammenarbeiteten, um sowohl faktische Genauigkeit als auch einen ruhigen, emotional zurückhaltenden Stil zu bewahren. Diese sorgfältige menschliche Übersetzung dient als Bezugsgröße. Dagegen vergleichen die Autorinnen und Autoren drei KI-Ausgaben: das neuronale System von Google Translate, ein generalistisches großes Sprachmodell (ChatGPT-4o) und ein neueres, auf Schlussfolgern fokussiertes Modell (OpenAI-o1). Alle wurden gebeten, dieselben Kapitel aus dem Chinesischen ins Englische unter alltäglichen Standardeinstellungen zu übersetzen, so wie es ein typischer Nutzer tun würde.

Ein Blick unter die sprachliche Haube

Um über Bauchgefühle zu „guten“ oder „schlechten“ Übersetzungen hinauszukommen, verwendet die Studie ein Tool namens Coh-Metrix, das über hundert Merkmale englischer Texte misst. Diese reichen von einfachen Zählwerten — etwa wie viele Verben oder Adjektive vorkommen — bis zu feineren Eigenschaften wie der Verknüpfungsdichte zwischen Sätzen, der Konkretizität der Wortwahl und der Leseführung. Die Autorinnen und Autoren gruppieren diese Messgrößen in sechs breite Bereiche: Wortwahl, Satzbau, explizite Verknüpfungen zwischen Ideen, tiefere konzeptionelle Verbindungen, Oberflächenmerkmale wie Satzlänge und die allgemeine Lesbarkeit. Durch den Vergleich der Werte über diese Dimensionen können sie quantitativ zeigen, wie eng Stil und Struktur jeder KI der menschlichen Übersetzung ähneln.

Wie sich die verschiedenen KIs verhalten

Die drei KI-Systeme zeigen sich mit unterschiedlichen „Persönlichkeiten“. Google Translate neigt dazu, gebräuchlicheren Wortschatz und relativ einfache Sätze zu verwenden, wodurch die Ausgabe leicht zu lesen, aber weniger reich und weniger an die persönliche Stimme der Erzählerin gebunden wirkt. Es benutzt weniger erste Person Plural wie „we“ und weniger lebhafte Verben als Menschen, was das Gefühl geteilter Erfahrung schwächt, das für Autobiografien zentral ist. Die beiden großen Sprachmodelle bevorzugen dagegen mehr Adjektive und Adverbien sowie ein breiteres Vokabular. Ihre Formulierungen können ausschmückender und dynamischer wirken und mitunter beschreibende Nuancen hinzufügen, die von den menschlichen Übersetzern nicht betont wurden. Das kann an manchen Stellen die Klarheit erhöhen, birgt aber auch das Risiko, den zurückhaltenden Ton des Originals zu stören, insbesondere in Passagen, deren Wirkung aus Zurückhaltung statt aus sprachlicher Opulenz erwächst.

Tiefe, Kohärenz und emotionale Unterströmungen

Bezüglich der Verbindung von Ideen über Sätze und Absätze hinweg erreichen keine der KI-Systeme ganz das Niveau der menschlichen Übersetzer. Die menschliche Fassung nutzt wiederholte Nomen, sorgfältig gewählte Verknüpfungswörter und klare Ursache-Wirkungs-Hinweise, um Leserinnen und Leser durch komplexe Ereignisse und emotionale Wechsel zu führen. Die KIs verlassen sich häufig weniger auf solche expliziten Wegweiser. Gleichzeitig betonen sie manchmal Handlung und Kausalität stärker und verwenden viele kausale und intentionale Verben, was Situationen klarer, aber auch wörtlicher als das Original erscheinen lassen kann. Das auf Schlussfolgern ausgerichtete Modell OpenAI-o1 neigt besonders dazu, zusätzliche Details zu erschließen — etwa vollständige Namen politischer Akteure anzugeben oder eine „Veränderung der Umstände" zu einer „Krise" zu machen. Solche Ergänzungen können die Erzählung direkter wirken lassen, aber auch vom tatsächlichen Wortlaut der Autorin abweichen.

Welche KI wirkt am menschlichsten

Über die vielen Messgrößen hinweg kommt ChatGPT-4o dem Profil der menschlichen Übersetzer am nächsten. Es bietet im Allgemeinen reichere Wortwahl und kontextsensiblere Formulierungen als Google Translate und vermeidet dabei einige der gewagteren interpretativen Erweiterungen von OpenAI-o1. Google Translate bleibt, obwohl weniger nuanciert, oft treuer zur Oberflächenformulierung und liefert sehr gut lesbaren Text, besonders für nicht spezialisierte Zielgruppen. OpenAI-o1, obwohl auf intensiveres Denken ausgelegt, liegt bei dieser Aufgabe insgesamt am wenigsten nahe an der menschlichen Übersetzung. Seine Stärken im Schlussfolgern führen dazu, dass es Ausdrücke umformuliert oder erweitert, was stilistisch ungeeignet oder kulturell ungenau für diese Art literarischen Schreibens sein kann.

Was das für Leser und Übersetzer bedeutet

Für eine interessierte Leserschaft lautet das Fazit: Die heutige KI kann bereits Übersetzungen literarischer Autobiografien erzeugen, die flüssig und mitunter verblüffend wirksam sind — doch sie erreichen Experten nicht vollständig, wenn es darum geht, Stimme, feine Emotionen und kulturelle Nuancen zu bewahren. Unter den getesteten Systemen bietet ChatGPT-4o derzeit die näheste Annäherung an professionelle Arbeit, während Google Translate in praktischer Lesbarkeit nicht weit zurückliegt. Das auf Schlussfolgern fokussierte Modell liegt in dieser speziellen Aufgabe zurück. Menschliche Übersetzer bleiben jedoch entscheidend: Ihre Fähigkeit, Geschichte, Kultur und Stil abzuwägen, erlaubt es ihnen, kohärente, emotional geschichtete Erzählungen zu schaffen, die Maschinen nur teilweise nachbilden. Während KI-Werkzeuge sich weiter verbessern, legt diese Studie nahe, dass man sie eher als kraftvolle Hilfsmittel denn als Ersatz für literarische Übersetzer sehen sollte — sie benötigen weiterhin menschliches Urteilsvermögen, um Lebensgeschichten vollständig über Sprachgrenzen zu bringen.

Zitation: Huang, Y., Cheung, A.K.F. Exploring AI’s performance in literary autobiography translation: how closely do AI models match human translation. Humanit Soc Sci Commun 13, 518 (2026). https://doi.org/10.1057/s41599-026-06630-4

Schlüsselwörter: literarische Übersetzung, maschinelle Übersetzung, große Sprachmodelle, chinesische Autobiografie, KI vs menschliche Übersetzer