Clear Sky Science · pl

Ocena przekładu literackiego przez duże modele językowe: wielowymiarowa ocena jakości Shen Congwena "Border Town"

2026-03-14 · Powrót do spisu

Dlaczego to badanie ma znaczenie dla czytelników i pisarzy

Wraz z upowszechnianiem się narzędzi takich jak ChatGPT i innych dużych modeli językowych ludzie zaczynają zadawać proste pytanie: czy te systemy mogą naprawdę zastąpić tłumaczy ludzkich, zwłaszcza w przypadku ukochanych powieści? Badanie to przygląda się temu pytaniu, analizując, jak kilka wiodących modeli SI tłumaczy klasyczną chińską książkę, "Border Town" Shen Congwena, na angielski i porównując ich pracę z uznanym tłumaczeniem wykonanym przez człowieka.

Miejscowa opowieść spotyka sztuczną inteligencję

"Border Town" słynie z łagodnego przedstawienia życia na wsi w południowo-zachodnich Chinach, poetyckiego języka i gęstej sieci lokalnych zwyczajów i wierzeń. Te cechy czynią ją idealnym przypadkiem testowym: każdy tłumacz musi oddać nie tylko, kto co zrobił, ale także atmosferę mgły nad łodziami rzecznymi, rytm pieśni ludowych i ciężar tradycyjnych wartości. Autorzy wybrali pierwsze dwa rozdziały powieści i zgromadzili pięć wersji angielskich: cztery stworzone przez duże modele językowe (GPT-4, GPT-4o, Gemini oraz chiński system WXYY 4.0 Turbo) oraz jedną autorstwa ludzkiego badacza i tłumacza Jeffreya Kinkleya, którego wersja z 2009 roku jest powszechnie chwalona za wrażliwość na styl i kulturę.

Jak oceniano przekłady

Aby wyjść poza intuicje dotyczące tego, co „brzmi właściwie”, badacze zastosowali szczegółową ramę nazwaną Wielowymiarowymi Metrykami Jakości. Zamiast jedynie sprawdzać, czy sformułowanie odpowiada oryginałowi, podejście to segreguje błędy na typy i ocenia ich powagę. Zespół skupił się na trzech głównych pytaniach: czy znaczenie jest dokładne? Czy wersja pozostaje wierna tonowi i stylowi opowiadania autora? I czy radzi sobie z detalami kulturowymi w sposób zrozumiały dla czytelników, nie wymazując ich oryginalnego smaku? Mając to na uwadze, dwóch wyszkolonych annotatorów porównało każde zdanie tekstu chińskiego z każdym tłumaczeniem, oznaczając pięć głównych typów błędów: błędne tłumaczenie, pominięcie, nadmierne tłumaczenie (dodanie niepotrzebnego materiału), błędne tłumaczenie kulturowe oraz szersze problemy na poziomie dyskursu, które szkodzą płynności opowieści.

Gdzie maszyny się potykają

Wyniki pokazują wyraźne wzorce. Wszystkie cztery systemy SI wygenerowały płynny angielski, ale często potykały się o kluczowe niuanse. Błędne tłumaczenia były najczęstszym problemem we wszystkich przypadkach: na przykład stare miedziane monety zmieniały się w brzmiącą nowocześnie „gotówkę”, co cicho zmieniało historyczny klimat wioski. Gemini pomijał najwięcej materiału, czasem pomijając opisy, które pomagają powiązać postacie lub budować atmosferę. GPT-4 najczęściej dodawał język oceniający, przekształcając dyskretne aluzje do romansu w pełnoprawny „afair”, co zmienia sposób postrzegania postaci przez czytelników. Odwołania kulturowe były szczególnie kruche: codzienne przedmioty związane z życiem rytualnym, jak kadzidła i świece, czy imię legendarnego bohatera, były często spłaszczane, unowocześniane lub tłumaczone zbyt dosłownie. Na poziomie całych akapitów niektóre modele subtelnie zmieniały, kto jest centralny dla metafory lub sceny, osłabiając kluczowe relacje, takie jak więź emocjonalna między młodą dziewczyną Cuicui a jej dziadkiem.

Bliższe spojrzenie na względne mocne strony

Nie wszystkie systemy wypadły tak samo. GPT-4o, nowszy i bardziej zoptymalizowany model, konsekwentnie popełniał mniej błędów niż GPT-4 w niemal każdej kategorii, co sugeruje, że staranne strojenie może mieć większe znaczenie niż sama wielkość modelu. Mniej pomijał treści i rzadziej źle tłumaczył wyrażenia, a ponadto zwykle lepiej zachowywał spójność opowieści między zdaniami. Gemini natomiast wykazał największą słabość w pomijaniu fragmentów, zwłaszcza w przejściach bogatych w obrazy i wskazówki kulturowe. WXYY 4.0 Turbo, mimo że trenowany w chińskim kontekście, nie przewyższył wyraźnie swoich zagranicznych odpowiedników w fragmentach ciężkich kulturowo; wciąż traktował niektóre terminy historyczne i rytualne jak zwykłe współczesne przedmioty. Wśród wszystkich tych maszyn wersja ludzka pozostała najbardziej niezawodna w splataniu znaczenia, nastroju i kultury.

Co to oznacza dla przyszłości czytania w przekładzie

Do codziennych zadań i prostych tekstów duże modele językowe już oferują imponującą pomoc. Jednak to badanie pokazuje, że w przypadku dzieł literackich, takich jak "Border Town", wciąż brak im istotnych warstw sensu i uczuć. Najlepiej wypadający model, GPT-4o, jest bliżej niż inne, lecz nadal wymaga nadzoru człowieka, szczególnie tam, gdzie chodzi o kulturę i strukturę opowieści. Autorzy argumentują, że lepsze prompty, bardziej ukierunkowane szkolenie i systematyczne post-editowanie przez ludzi są niezbędne, jeśli SI ma wspierać, a nie zastępować, tłumaczy literackich. Dla czytelników przesłanie jest jasne: wynik maszyny może być przydatnym szkicem lub pomocą, ale pełne życie emocjonalne i kulturowe powieści nadal zależy od ludzkiej sztuki.

Cytowanie: Yang, W., Yang, M. Evaluating literary translation by large language models: a multidimensional quality assessment of Shen Congwen’s Border Town. Humanit Soc Sci Commun 13, 628 (2026). https://doi.org/10.1057/s41599-026-06868-y

Słowa kluczowe: tłumaczenie literackie, duże modele językowe, jakość tłumaczeń maszynowych, literatura chińska, niuanse kulturowe