Clear Sky Science · de

Können probabilistische Verteilungen von Satz- und Satzgliedlängen Übersetzungsrichtungen unterscheiden?

· Zurück zur Übersicht

Warum die Länge von Sätzen in Übersetzungen wichtig ist

Wenn wir eine übersetzte Erzählung lesen, denken wir selten über die winzigen Bausteine des Textes nach: wie lang jeder Satz oder jedes Satzglied ist oder wie häufig bestimmte Längen vorkommen. Doch diese Muster können unauffällig verraten, wer übersetzt hat und in welche Richtung die Übersetzung erfolgte — in die Muttersprache des Übersetzers oder in eine Zweitsprache. Dieser Artikel untersucht, ob die statistischen Fingerabdrücke von Satz- und Satzgliedlängen diese Übersetzungsrichtungen zuverlässiger unterscheiden können als einfache Mittelwerte und bietet damit eine neue Perspektive darauf, wie übersetzte Sprache sich vom gewöhnlichen Schreiben unterscheidet.

Figure 1
Figure 1.

Weiterblicken als einfache Mittelwerte

Jahrzehntelang nutzten Forschende die Satzlänge als groben Indikator für Schreibstil, Autorenschaft und sogar Genre. Frühere Studien konzentrierten sich auf grundlegende Maße wie die durchschnittliche Wortzahl pro Satz, die sich jedoch oft als zu grob erwiesen, um Fragen wie die Urheberschaft eindeutig zu klären. Neuere Arbeiten richteten den Blick auf vollständige Verteilungen — wie häufig kurze, mittellange und lange Sätze auftreten —, um subtilere Muster zu entdecken. Die vorliegende Studie wendet diesen verteilungsbasierten Ansatz auf die Übersetzungswissenschaft an und fragt, ob er Licht auf die lang diskutierte Frage der Übersetzungsrichtung werfen kann: Übersetzen in die Muttersprache (L1) versus Übersetzen in eine Zweitsprache (L2).

Ein sorgfältig abgeglichenes Erzählen-Set

Um diese Idee zu prüfen, bauten die Autorinnen und Autoren ein streng kontrolliertes Korpus aus zehn Kurzgeschichten des einflussreichen chinesischen Schriftstellers Lu Xun auf. Jede Geschichte liegt in mehreren englischen Übersetzungen vor, ausgeführt von vier hochqualifizierten Übersetzerinnen und Übersetzern. Zwei sind englische Muttersprachler, die aus dem Chinesischen ins Englische übersetzen (L1 — Übersetzung in die Muttersprache), und zwei sind chinesische Muttersprachler, die ins Englische übersetzen (L2 — Übersetzung in eine Zweitsprache). Mit eigens entwickelten Programmen segmentierten die Forschenden die englischen Texte in Sätze und in kleinere Einheiten, sogenannte Satzglieder, und zählten die enthaltenen Wörter. Sie berechneten einfache Mittelwerte, modellierten aber vor allem die vollständige Verbreitung der Längen mit etablierten probabilistischen Verteilungen aus der quantitativen Linguistik.

Was Satzmuster offenbaren

Die erste Überraschung ist, dass sich die durchschnittliche Satzlänge in L1- und L2-Übersetzungen praktisch nicht unterscheidet, und statistische Tests zeigen keinen aussagekräftigen Unterschied. Auf den ersten Blick produzieren beide Übersetzungsgruppen Sätze ähnlicher Gesamtlänge. Sobald die Autorinnen und Autoren jedoch die Verteilung der Satzlängen untersuchen, treten verborgene Kontraste zutage. Wenn sie Sätze in Bereiche gruppieren (zum Beispiel 1–5 Wörter, 6–10 Wörter usw.) und ein anspruchsvolles Modell, das Extended Positive Negative Binomial-Modell, anpassen, unterscheiden sich zwei der Modellparameter konsistent zwischen L1- und L2-Übersetzungen. Einfach gesagt bevorzugen beide Richtungen mittellange Sätze, doch die genaue Form der "Kuppe" und die Art, wie die Häufigkeiten gegen sehr kurze oder sehr lange Sätze abfallen, enthalten starke Hinweise darauf, in welche Richtung übersetzt wurde.

Was Satzgliedmuster hinzufügen

Satzglieder, die kleineren Einheiten innerhalb von Sätzen, erzählen eine nuanciertere Geschichte. Hier unterscheidet sich die durchschnittliche Länge: Übersetzungen in eine Zweitsprache neigen zu etwas längeren Satzgliedern und zu größerer Variation. Diese Mittelwerte werden jedoch stark vom persönlichen Stil der einzelnen Übersetzer beeinflusst, was ihre Nützlichkeit zur Klassifikation der Richtung einschränkt. Untersuchen die Autorinnen und Autoren hingegen das Rang–Frequenz-Muster der Satzgliedlängen (wie oft die häufigste Länge auftritt, dann die zweithäufigste usw.) und passen ein Modell namens Hyperpoisson an, erweisen sich die Modellparameter als sehr sensitiv gegenüber der Übersetzungsrichtung und erfassen zugleich individuelle stilistische Fingerabdrücke. Im Gegensatz dazu unterscheiden die Parameter nicht mehr gut zwischen den Richtungen, wenn man die Satzgliedlänge aus einer anderen Perspektive betrachtet — das Längen–Frequenz-Muster, angepasst mit einem Shenton–Skees–geometrischen Modell —, wobei sie dennoch stilistische Unterschiede zwischen den Übersetzern widerspiegeln.

Figure 2
Figure 2.

Warum diese verborgenen Muster wichtig sind

Insgesamt zeigt die Studie, dass einfache Mittelwerte von Satz- oder Satzgliedlängen nur stumpfe Werkzeuge sind, um Übersetzungen zu verstehen. Am informativsten ist die vollständige probabilistische Gestalt der Längenverteilungen. Zwei spezielle Kombinationen heben sich als besonders mächtig hervor: die Längen–Frequenz-Verteilung der Satzlängen und die Rang–Frequenz-Verteilung der Satzgliedlängen. Zusammengenommen können diese Modelle zuverlässig erkennen, ob eine Übersetzung in die Muttersprache oder in eine Zweitsprache entstanden ist, selbst wenn die Texte oberflächlich ähnlich wirken. Für Nichtfachleute ist die Botschaft, dass Übersetzungen feine statistische Spuren ihres Entstehungsprozesses tragen — Spuren, die Computer lesen können, auch wenn Menschen sie nicht unmittelbar wahrnehmen. Diese Techniken könnten letztlich bei der Bewertung von Übersetzungsqualität, beim Profiling von Übersetzerstilen oder bei der Unterscheidung von menschlicher und maschineller Übersetzung helfen und zugleich unser Verständnis dafür vertiefen, wie Sprache sich beim Übergang zwischen Sprachen verhält.

Zitation: Zhan, J., Fu, Y. & Jiang, Y. Can probabilistic distributions of sentence and clause lengths differentiate between translation directions?. Humanit Soc Sci Commun 13, 412 (2026). https://doi.org/10.1057/s41599-026-06737-8

Schlüsselwörter: Übersetzungsrichtung, Verteilung der Satzlängen, Satzgliedlänge, quantitative Linguistik, Lu-Xun-Übersetzungen