Clear Sky Science · pl

Badanie wydajności SI w tłumaczeniu literackiej autobiografii: na ile modele SI dorównują tłumaczeniom ludzkim

· Powrót do spisu

Dlaczego to ma znaczenie dla zwykłych czytelników

Wielu z nas polega dziś na internetowych narzędziach tłumaczeniowych, a niektórzy używają wręcz SI do czytania powieści lub wspomnień napisanych w innych językach. Czy jednak te systemy potrafią naprawdę uchwycić emocje, rytm i kulturową głębię opowieści o życiu? Badanie analizuje, jak trzy popularne systemy SI i zawodowi tłumacze radzą sobie z uznaną chińską autobiografią literacką, ujawniając, w których obszarach maszyny błyszczą, gdzie popełniają błędy i co to oznacza dla czytelników spotykających literaturę światową przez ekran.

Figure 1
Figure 1.

Opowieści przechodzące przez języki

Naukowcy skupiają się na The Great Flowing River, szeroko cenionej chińskiej autobiografii łączącej osobistą pamięć z burzliwą historią wojennej Chin i powojennego Tajwanu. Jej angielskie wydanie powstawało przez lata w pracy zespołowej ekspertów współpracujących z autorem, aby zachować zarówno faktograficzną dokładność, jak i stonowany, emocjonalnie powściągliwy styl. To staranne ludzkie tłumaczenie traktowane jest jako punkt odniesienia. W porównaniu z nim autorzy zestawiają trzy wersje SI: system neuronowy Google Translate, ogólnego przeznaczenia duży model językowy (ChatGPT-4o) oraz nowszy model ukierunkowany na rozumowanie (OpenAI-o1). Wszystkie poproszono o przetłumaczenie tych samych rozdziałów z chińskiego na angielski w codziennych, domyślnych ustawieniach, tak jak zrobiłby to typowy użytkownik.

Zajrzeć pod maskę języka

Aby wyjść poza intuicyjne oceny „dobrego” lub „złego” tłumaczenia, badanie korzysta z narzędzia Coh-Metrix, które mierzy ponad sto cech tekstów angielskich. Obejmują one proste liczniki — jak liczba czasowników czy przymiotników — oraz subtelniejsze właściwości, takie jak stopień powiązania zdań, konkrecyjność słownictwa i łatwość śledzenia fragmentu. Autorzy grupują te miary w sześć szerokich obszarów: dobór słów, struktura zdań, jawne łącza między myślami, głębsze powiązania koncepcyjne, cechy powierzchniowe jak długość zdań oraz ogólna czytelność. Porównując wyniki w tych wymiarach, mogą ilościowo pokazać, jak bliski stylowi i strukturze tłumaczenia ludzkiego jest każdy z systemów SI.

Figure 2
Figure 2.

Jak zachowują się różne SI

Okazuje się, że trzy systemy SI mają odrębne „osobowości”. Google Translate ma tendencję do używania bardziej powszechnego słownictwa i stosunkowo prostych zdań, co sprawia, że jego output jest łatwy do czytania, lecz mniej bogaty i mniej związany z osobistym głosem narratora. Używa mniej rzeczowników w pierwszej osobie liczby mnogiej, takich jak „my”, i mniej żywych czasowników niż tłumacze ludzie, co osłabia poczucie wspólnego doświadczenia kluczowe dla autobiografii. Dwa duże modele językowe z kolei preferują więcej przymiotników i przysłówków oraz szerszy zakres słownictwa. Ich sformułowania mogą brzmieć bardziej rozbudowanie i dynamicznie, czasem dodając opisowe akcenty, które nie były podkreślone przez tłumaczy ludzi. To może miejscami poprawiać jasność, ale też grozi naruszeniem pierwotnego, powściągliwego tonu, zwłaszcza w fragmentach, gdzie siła książki wynika z umiaru, a nie ozdobności.

Głębia, spójność i podteksty emocjonalne

Jeśli chodzi o łączenie myśli między zdaniami i akapitami, żaden z systemów SI nie dorównuje w pełni tłumaczom ludzkim. Wersja ludzka konsekwentnie korzysta z powtarzanych rzeczowników, starannie dobranych słów łączących i wyraźnych wskazówek przyczynowo‑skutkowych, które pomagają czytelnikom śledzić skomplikowane wydarzenia i przesunięcia emocjonalne. SI często polegają mniej na takich jawnych drogowskazach. Jednocześnie czasem nadmiernie eksponują działanie i przyczynowość, używając wielu czasowników wyrażających przyczynę czy intencję, co może uprościć sytuacje, ale też uczynić je bardziej dosłownymi niż w oryginale. Model ukierunkowany na rozumowanie, OpenAI-o1, szczególnie skłonny jest do wnioskowania dodatkowych szczegółów — na przykład określania pełnego imienia i nazwiska przywódcy politycznego lub przekształcania „zmiany okoliczności” w „kryzys”. Takie domysły mogą nadać narracji większą bezpośredniość, ale też oddalić ją od tego, co autor faktycznie napisał.

Które SI wydaje się najbardziej „ludzkie”

Wśród wielu pomiarów ChatGPT-4o wypada najbliżej profilu tłumaczy ludzkich. Zazwyczaj oferuje bogatsze słownictwo i bardziej kontekstowo trafne sformułowania niż Google Translate, przy jednoczesnym unikaniu niektórych odważniejszych interpretacyjnych skoków popełnianych przez OpenAI-o1. Google Translate, choć mniej subtelny, często pozostaje wierniejszy powierzchownemu brzmieniu i generuje bardzo czytelny tekst, szczególnie dla odbiorców niebędących specjalistami. OpenAI-o1, mimo że zaprojektowany by „myśleć intensywniej”, ogólnie najmniej odpowiada tłumaczeniu ludzkiego zespołu. Jego mocne strony w rozumowaniu skłaniają go do przeformułowywania lub rozszerzania niektórych wyrażeń w sposób, który może być stylistycznie nie na miejscu lub kulturowo niedokładny w tego typu piśmiennictwie literackim.

Co to oznacza dla czytelników i tłumaczy

Dla czytelnika nieprofesjonalnego wnioskiem jest to, że dzisiejsze SI potrafią już tworzyć tłumaczenia autobiografii literackiej, które są płynne i czasem zadziwiająco skuteczne — nadal jednak ustępują ekspertom ludzkim w zachowaniu głosu, subtelnych emocji i niuansów kulturowych. Wśród testowanych systemów ChatGPT-4o obecnie oferuje najbliższe przybliżenie pracy profesjonalnej, a Google Translate nie pozostaje daleko w tyle pod względem praktycznej czytelności. Model ukierunkowany na rozumowanie wypada słabiej w tym konkretnym zadaniu. Tłumacze ludzie pozostają jednak kluczowi: ich zdolność do ważenia historii, kultury i stylu pozwala budować spójne, emocjonalnie wielowarstwowe narracje, które maszyny jedynie częściowo naśladują. W miarę jak narzędzia SI będą się doskonalić, badanie sugeruje, że najlepiej traktować je nie jako zamienniki tłumaczy literackich, lecz jako potężne wsparcie, które wciąż potrzebuje ludzkiego osądu, by w pełni przenieść opowieści o życiu przez języki.

Cytowanie: Huang, Y., Cheung, A.K.F. Exploring AI’s performance in literary autobiography translation: how closely do AI models match human translation. Humanit Soc Sci Commun 13, 518 (2026). https://doi.org/10.1057/s41599-026-06630-4

Słowa kluczowe: tłumaczenie literackie, tłumaczenie maszynowe, duże modele językowe, chińska autobiografia, SI kontra tłumacze ludzie