Clear Sky Science · fr

Les distributions probabilistes des longueurs de phrases et de propositions peuvent-elles différencier les directions de traduction ?

· Retour à l’index

Pourquoi la longueur des phrases en traduction est importante

Lorsque nous lisons une histoire traduite, nous nous arrêtons rarement pour réfléchir aux plus petits éléments du texte : la longueur de chaque phrase ou proposition, ou la fréquence d’apparition de certaines longueurs. Pourtant ces motifs peuvent discrètement révéler qui a traduit le texte et dans quelle direction la traduction a été faite — vers la langue maternelle du traducteur ou vers une langue seconde. Cet article examine si les empreintes statistiques des longueurs de phrases et de propositions peuvent distinguer ces directions de traduction plus efficacement que de simples moyennes, offrant un nouvel angle pour comprendre en quoi la langue traduite diffère de l’écriture ordinaire.

Figure 1
Figure 1.

Aller au‑delà des simples moyennes

Depuis des décennies, les chercheurs utilisent la longueur des phrases comme indicateur approximatif du style d’écriture, de l’identité d’un auteur et même du genre. Les premières études se concentraient sur des mesures basiques comme le nombre moyen de mots par phrase, mais celles‑ci se sont souvent révélées trop grossières pour trancher des questions telles que l’auteur d’un texte contesté. Des travaux plus récents se sont tournés vers les distributions complètes — la fréquence d’apparition des phrases courtes, moyennes et longues — afin de mettre au jour des motifs plus subtils. La présente étude applique cette approche distributionnelle aux études de traduction, pour savoir si elle peut éclairer l’épineuse question de la direction de traduction : traduire vers sa langue maternelle (L1) ou traduire vers une langue seconde (L2).

Un ensemble d’histoires soigneusement apparié

Pour tester cette idée, les auteurs ont constitué un corpus strictement contrôlé basé sur dix nouvelles de l’influent écrivain chinois Lu Xun. Chaque nouvelle dispose de plusieurs traductions en anglais réalisées par quatre traducteurs très qualifiés. Deux sont des anglophones natifs traduisant depuis le chinois (traduction en L1 vers leur langue maternelle), et deux sont des sinophones natifs traduisant vers l’anglais (traduction en L2 vers une seconde langue). À l’aide de scripts informatiques sur mesure, les chercheurs ont segmenté les textes anglais en phrases et en unités plus courtes appelées propositions, puis ont compté le nombre de mots contenues dans chacune. Ils ont calculé des moyennes simples mais, surtout, ont modélisé la répartition complète des longueurs à l’aide de distributions probabilistes établies en linguistique quantitative.

Ce que révèlent les motifs de phrases

La première surprise est que la longueur moyenne des phrases est presque identique dans les traductions L1 et L2, et que les tests statistiques n’indiquent pas de différence significative. En surface, les deux groupes de traducteurs produisent des phrases d’une longueur globale similaire. Cependant, lorsque les auteurs examinent la distribution des longueurs de phrases, des contrastes cachés apparaissent. En regroupant les phrases par intervalles (par exemple 1–5 mots, 6–10 mots, etc.) et en ajustant un modèle sophistiqué connu sous le nom de modèle binomial négatif positif étendu (Extended Positive Negative Binomial), deux des paramètres du modèle diffèrent systématiquement entre traductions L1 et L2. En termes simples, les deux directions favorisent les phrases de longueur moyenne, mais la forme exacte de la « colline » et la façon dont les fréquences décroissent vers les phrases très courtes ou très longues portent des indices puissants sur la direction de la traduction.

Ce que les propositions apportent

Les propositions, unités plus petites à l’intérieur des phrases, racontent une histoire plus nuancée. Ici, la longueur moyenne diffère : les traductions vers une langue seconde tendent à présenter des propositions légèrement plus longues et une plus grande variabilité. Pourtant ces moyennes sont fortement influencées par le style personnel de chaque traducteur, ce qui limite leur utilité pour classifier la direction. Lorsque les auteurs étudient le schéma rang‑fréquence des longueurs de propositions (la fréquence de la longueur la plus commune, puis de la deuxième, etc.) et ajustent un modèle appelé Hyperpoisson, les paramètres du modèle s’avèrent très sensibles à la direction de traduction et captent aussi les empreintes stylistiques individuelles. En revanche, lorsqu’ils regardent les longueurs de propositions sous un autre angle — le schéma longueur‑fréquence ajusté par un modèle Shenton–Skees–géométrique — les paramètres ne distinguent plus bien les directions, même s’ils reflètent toujours des différences de style entre traducteurs.

Figure 2
Figure 2.

Pourquoi ces motifs cachés comptent

Au total, l’étude montre que les moyennes simples de la longueur des phrases ou des propositions sont des outils grossiers pour comprendre la traduction. C’est la forme probabiliste complète des motifs de longueur qui porte le signal le plus informatif. Deux combinaisons se révèlent particulièrement puissantes : la distribution longueur‑fréquence des longueurs de phrases et la distribution rang‑fréquence des longueurs de propositions. Ensemble, ces modèles peuvent de manière fiable indiquer si une traduction a été faite vers une langue maternelle ou vers une langue seconde, même lorsque les textes semblent similaires en surface. Pour les non‑spécialistes, le message est que les traductions conservent des traces statistiques délicates de leur mode de production — des traces que les ordinateurs peuvent lire, même si les humains ne les perçoivent pas directement. Ces techniques pourraient à terme aider à évaluer la qualité des traductions, profiler les styles des traducteurs ou distinguer traduction humaine et traduction automatique, tout en approfondissant notre compréhension du comportement du langage lorsqu’il passe d’une langue à l’autre.

Citation: Zhan, J., Fu, Y. & Jiang, Y. Can probabilistic distributions of sentence and clause lengths differentiate between translation directions?. Humanit Soc Sci Commun 13, 412 (2026). https://doi.org/10.1057/s41599-026-06737-8

Mots-clés: direction de traduction, distribution de la longueur des phrases, longueur des propositions, linguistique quantitative, traductions de Lu Xun