Clear Sky Science · pl

Czy rozkłady probabilistyczne długości zdań i składni mogą rozróżniać kierunki tłumaczenia?

· Powrót do spisu

Dlaczego długość zdań w tłumaczeniu ma znaczenie

Gdy czytamy przetłumaczoną opowieść, rzadko zatrzymujemy się nad drobnymi elementami tekstu: jak długie są poszczególne zdania czy składnie albo jak często pojawiają się określone długości. Tymczasem te wzory mogą dyskretnie ujawniać, kto tłumaczył i w którym kierunku—czy na język ojczysty tłumacza, czy na drugi język. W artykule badamy, czy statystyczne „odciski palców” długości zdań i składni potrafią rzetelniej rozróżnić kierunek tłumaczenia niż proste średnie, oferując nowe spojrzenie na to, jak język tłumaczony różni się od zwykłego pisania.

Figure 1
Rysunek 1.

Wyjść poza proste średnie

Przez dekady badacze korzystali z długości zdań jako przybliżonego wskaźnika stylu pisania, tożsamości autora czy nawet gatunku. Wczesne badania koncentrowały się na podstawowych miarach, takich jak średnia liczba słów na zdanie, lecz często okazywały się one zbyt proste, by rozstrzygać kwestie, np. dotyczące autorstwa. Nowsze prace zwróciły się ku pełnym rozkładom—jak często występują zdania krótkie, średnie i długie—by odkrywać subtelniejsze wzorce. Niniejsze badanie przenosi to podejście rozkładowe do badań nad tłumaczeniem, pytając, czy może ono rzucić światło na długo dyskutowaną kwestię kierunku tłumaczenia: tłumaczenie na język ojczysty (L1) versus tłumaczenie na język drugi (L2).

Starannie dopasowany zestaw opowiadań

Aby przetestować tę ideę, autorzy zbudowali ściśle kontrolowany korpus oparty na dziesięciu krótkich opowiadaniach wpływowego chińskiego pisarza Lu Xuna. Każde opowiadanie ma kilka angielskich przekładów wykonanych przez czterech wysoko wykwalifikowanych tłumaczy. Dwóch z nich to native speakerzy angielskiego tłumaczący z chińskiego (tłumaczenie L1 na ich język ojczysty), a dwóch to native speakerzy chińskiego tłumaczący na angielski (tłumaczenie L2 na drugi język). Za pomocą autorskich skryptów komputerowych badacze podzielili angielskie teksty na zdania i krótsze jednostki zwane składniami, po czym policzyli, ile słów każda z nich zawiera. Obliczyli proste średnie, ale co ważniejsze—modelowali pełne rozkłady długości, stosując ustalone rozkłady probabilistyczne z lingwistyki ilościowej.

Co ujawniają wzory zdań

Pierwszym zaskoczeniem jest to, że średnia długość zdań jest niemal identyczna w tłumaczeniach L1 i L2, a testy statystyczne nie wykazują istotnej różnicy. Na pierwszy rzut oka obie grupy tłumaczy produkują zdania o podobnej ogólnej długości. Jednak gdy autorzy badają, jak rozkładają się długości zdań, pojawiają się ukryte kontrasty. Gdy grupują zdania na przedziały (np. 1–5 słów, 6–10 słów itd.) i dopasowują zaawansowany rozkład znany jako rozszerzony dodatnio-ujemny rozkład dwumianowy (Extended Positive Negative Binomial), dwa parametry modelu różnią się konsekwentnie między tłumaczeniami L1 i L2. Mówiąc prościej: obie grupy preferują zdania średniej długości, ale dokładny kształt „wzgórza” i sposób, w jaki częstości opadają ku bardzo krótkim lub bardzo długim zdaniom, kodują mocne sygnały o kierunku tłumaczenia.

Co dodają wzory składni

Składnie, mniejsze jednostki w obrębie zdań, opowiadają bardziej zniuansowaną historię. Tutaj średnia długość faktycznie się różni: tłumaczenia na język drugi mają tendencję do nieco dłuższych składni i większej zmienności. Jednak te średnie są silnie zależne od osobistego stylu każdego tłumacza, co ogranicza ich przydatność przy klasyfikacji kierunku. Gdy autorzy analizują wzorzec ranga–częstość długości składni (jak często występuje najczęściej spotykana długość, potem druga najczęstsza itd.) i dopasowują rozkład zwany modelem Hyperpoisson, parametry modelu okazują się wysoce czułe na kierunek tłumaczenia i jednocześnie uchwytują indywidualne cechy stylu. Dla odmiany, gdy patrzą na długość składni z innego punktu widzenia—wzorzec długość–częstość dopasowany modelem Shenton–Skees–geometrycznym—parametry przestają dobrze rozróżniać kierunki, choć nadal odzwierciedlają różnice stylu między tłumaczami.

Figure 2
Rysunek 2.

Dlaczego te ukryte wzory mają znaczenie

Ogólnie rzecz biorąc, badanie pokazuje, że proste średnie długości zdań czy składni są tępe jako narzędzia do zrozumienia tłumaczenia. To pełny probabilistyczny kształt rozkładów długości niesie najbardziej informacyjny sygnał. Dwie kombinacje wyróżniają się jako szczególnie silne: rozkład długość–częstość dla długości zdań oraz rozkład ranga–częstość dla długości składni. Razem te modele potrafią wiarygodnie wskazać, czy tłumaczenie zostało wykonane na język ojczysty, czy na drugi język, nawet gdy teksty na pierwszy rzut oka wydają się podobne. Dla niespecjalistów przesłanie jest takie, że tłumaczenia niosą delikatne statystyczne ślady procesu tworzenia—ślady, które maszyny potrafią odczytać, choć ludzie mogą ich bezpośrednio nie wyczuwać. Techniki te mogą w przyszłości pomagać w ocenie jakości tłumaczeń, profilowaniu stylów tłumaczy czy rozróżnianiu tłumaczeń ludzkich od maszynowych, a także pogłębiać nasze rozumienie zachowania języka w migracji między językami.

Cytowanie: Zhan, J., Fu, Y. & Jiang, Y. Can probabilistic distributions of sentence and clause lengths differentiate between translation directions?. Humanit Soc Sci Commun 13, 412 (2026). https://doi.org/10.1057/s41599-026-06737-8

Słowa kluczowe: kierunek tłumaczenia, rozkład długości zdań, długość składni, lingwistyka ilościowa, tłumaczenia Lu Xuna