Clear Sky Science · pl

Ocena czytelności angielskich przekładów chińskich klasyków: badanie oparte na XGBoost i sieciach neuronowych BP

2026-03-15 · Powrót do spisu

Dlaczego starożytna mądrość wciąż potrzebuje jasnego angielskiego

Rozmowy Konfucjusza kształtowały myśl chińską przez ponad dwa tysiąclecia, a mimo to wielu anglojęzycznych czytelników nadal ma trudności ze zrozumieniem tego tekstu. Różne przekłady starają się być wierne oryginałowi, a jednocześnie czytelne, jednak nie jest oczywiste, które wersje są łatwiejsze do zrozumienia dla współczesnej publiczności. Ten artykuł wykorzystuje nowoczesne technologie językowe i uczenie maszynowe do zmierzenia czytelności kilku angielskich przekładów Rozmów, oferując podejście oparte na danych do rozważania, jak dzieła klasyczne przemieszczają się między językami i kulturami.

Wiele głosów dla jednej klasycznej księgi

Badanie koncentruje się na pięciu pełnych angielskich przekładach Rozmów, powstałych między XIX a XXI wiekiem: autorstwa Jamesa Legge’a, Williama Jenningsa, D. C. Laua, Edwarda Slingerlanda i Burtona Watsona. Wszyscy tłumacze pracowali z tego samego klasycznego chińskiego oryginału, lecz dokonali różnych wyborów stylistycznych i interpretacyjnych. Aby porównać je uczciwie, autorzy podzielili każdy przekład na 1412 krótkich wersów, które w przybliżeniu odpowiadają tradycyjnemu podziałowi powiedzeń w chińskim tekście. Trzy przekłady posłużyły do trenowania modeli, a dwa zostały odłożone na test, by sprawdzić, jak dobrze modele ocenią nowe fragmenty.

Przekształcanie zdań w mierzalne sygnały

Zamiast polegać na jednej znanej formule, takiej jak Flesch Reading Ease, badacze zbudowali znacznie bogatszy zestaw 114 wskaźników dla każdej linii w korpusie. Niektóre to tradycyjne formuły czytelności analizujące podstawowe cechy, takie jak długość zdania i średnia wielkość słowa. Inne uchwyciły cechy słownictwa, np. ile długich lub rzadkich słów występuje, jak zróżnicowane są wybory leksykalne i jak gęsta jest informacja. Trzecia grupa opisywała strukturę zdań — na przykład ile zdań składowych zawiera wypowiedź lub jak często pojawiają się określone wzorce gramatyczne. Na koniec dodano nowoczesny element: duży model językowy (BERT) oszacował, jak semantycznie „typowa” jest każda linia w porównaniu z resztą korpusu, dostarczając zwartego wskaźnika spójności na poziomie znaczenia.

Nauczanie maszyn rozpoznawania trudności

Wykorzystując te wskaźniki, autorzy wytrenowali dwa modele uczenia maszynowego — model XGBoost i prostą sieć neuronową z wsteczną propagacją — do przewidywania złożonych ocen czytelności dla każdej linii. Oceny te opierały się na połączonym wyniku dziewięciu tradycyjnych formuł, co dawało modelom stabilny cel do nauki. Przed treningiem zbadano, jak silnie poszczególne wskaźniki korelują z ocenami. Linie pełne długich, wielosylabowych lub technicznie trudnych słów miały tendencję do otrzymywania wyższych (trudniejszych) ocen, podobnie jak linie z większą liczbą znaków i bardziej złożoną strukturą zdania. W przeciwieństwie do tego niektóre drobne zliczenia gramatyczne odgrywały jedynie skromną rolę. Oba modele bardzo dobrze odtworzyły wzorce z treningu na danych testowych, co sugeruje, że to połączenie cech uchwyciło dużo z tego, co sprawia, że fragment Rozmów jest łatwy lub trudny do czytania.

Porównanie tłumaczy z grubsza i szczegółowo

Po wytrenowaniu modele zastosowano do dwóch testowych przekładów Slingerlanda i Watsona. Na szerokim poziomie badacze pogrupowali przewidywane oceny w pasma od najłatwiejszych do najtrudniejszych i policzyli, ile linii z każdego przekładu wpadło w poszczególne pasma. Przekład Watsona okazał się nieco łatwiejszy ogólnie: więcej jego linii znalazło się w pasmach o wysokiej czytelności, podczas gdy wersja Slingerlanda częściej używała dłuższych zdań i bardziej rozbudowanego słownictwa. Na poziomie szczegółowym zespół przyjrzał się indywidualnym powiedzeniom, w których tłumacze znacznie się różnili. W takich przypadkach trudniejsze linie zwykle łączyły kilka czynników — dłuższe zdania, zagnieżdżone zdania składowe, abstrakcyjne lub rzadkie słownictwo oraz gęste komentarze upakowane w jednej linii — podczas gdy łatwiejsze linie preferowały krótsze, bardziej bezpośrednie sformułowania i prostsze wybory słów.

Co wyniki oznaczają dla czytelników i tłumaczy

Dla czytelników niebędących specjalistami, którzy chcą się zbliżyć do Konfucjusza po angielsku, badanie sugeruje, że niektóre przekłady zapewniają płynniejszą drogę niż inne, przynajmniej pod względem surowego wysiłku lektury. Dla tłumaczy i badaczy pokazuje, jak narzędzia ilościowe mogą uzupełniać tradycyjne bliskie czytanie, uwidaczniając wzorce trudności w tysiącach linii. Autorzy podkreślają, że czytelność to tylko jeden aspekt dobrego przekładu; wierność pierwotnemu znaczeniu i stylowi literackiemu też ma znaczenie. Mimo to, ujawniając, jak długość zdań, ich struktura i dobór słów kształtują doświadczenie czytania Rozmów po angielsku, praca ta wskazuje drogę ku bardziej przystępnym wydaniom chińskich klasyków i, ostatecznie, ku jaśniejszym rozmowom międzykulturowym.

Cytowanie: Yang, L., Zhou, G. Readability assessment of English translations of Chinese classics: a study based on XGBoost and BP neural networks. Humanit Soc Sci Commun 13, 588 (2026). https://doi.org/10.1057/s41599-026-06878-w

Słowa kluczowe: czytelność tekstu, uczenie maszynowe, Rozmowy Konfucjusza, tłumaczenie literackie, przetwarzanie języka naturalnego