Clear Sky Science · he
הערכת תרגום ספרותי על ידי דגמי שפה גדולים: הערכת איכות רב־ממדית של "עיר הגבול" של Shen Congwen
מדוע המחקר הזה חשוב לקוראים ולסופרים
כשכלים כמו ChatGPT ודגמי שפה גדולים אחרים הופכים לחלק מהחיים היומיומיים, אנשים מתחילים לשאול שאלה פשוטה: האם מערכות אלה יכולות באמת להחליף מתרגמים אנושיים, במיוחד בכל הנוגע לרומנים אהובים? מחקר זה בוחן את השאלה בפירוט על ידי בדיקה של האופן שבו מספר דגמי בינה מלאכותית מובילים מתרגמים ספר קלאסי סיני, "עיר הגבול" של Shen Congwen, לאנגלית והשוואת עבודתם עם תרגום אנושי מוערך.
סיפור כפרי פוגש בינה מלאכותית
"עיר הגבול" מפורסם בתיאור העדין של חיי הכפר בדרום־מערב סין, בשפתו הפואטית וברשת הסבוכה של מנהגים ואמונות מקומיות. תכונות אלה עושות אותו למקרה מבחן אידיאלי: כל מתרגם צריך ללכוד לא רק מי עשה מה, אלא גם את תחושת הערפל מעל סירות הנהר, את קצב שירי העם ואת משקל הערכים המסורתיים. המחברים בחרו את שני הפרקים הראשונים של הרומן ואספו חמש גרסאות באנגלית: ארבע שהופקו על ידי דגמי שפה גדולים (GPT-4, GPT-4o, Gemini והמערכת הסינית WXYY 4.0 Turbo) ואחת של המתרגם־חוקר האנושי Jeffrey Kinkley, שגרסתו מ־2009 זוכה לשבחים על רגישותה לסגנון ותרבות.

כיצד נבדקו התרגומים
כדי לצאת מעבר לתחושות בטן על מה "נשמע נכון", החוקרים השתמשו במסגרת מפורטת הנקראת מדדי איכות רב־ממדיים (Multidimensional Quality Metrics). במקום לבדוק רק האם המילים תואמות למקור, גישה זו ממיינת שגיאות לפי סוגים ומדרגת את חומרתן. הצוות התרכז בשלוש שאלות מרכזיות: האם המשמעות מדויקת? האם הגרסה נשארת נאמנה לטון ולסגנון הסיפור של המחבר? והאם היא מטפלת בפרטים תרבותיים באופן שמובן לקוראים בלי להחסיר את טעמם המקורי? על בסיס עקרונות אלה, שני מסמכים מאומנים השוו כל משפט בטקסט הסיני לכל תרגום, ודיווחו חמשת סוגי השגיאות העיקריים: תרגום שגוי, השמטה, תרגום־יתר (הוספת חומר מיותר), תרגום תרבותי לקוי ובעיות על־רמת הדיסקורס שפוגעות בזרימת הסיפור.
איפה המכונות נתקעות
התוצאות מראות דפוסים ברורים. כל ארבעת מערכות ה־AI הפיקו אנגלית שוטפת, אך לעיתים קרובות נכשלו בניואנסים חשובים. תרגום שגוי היה הבעיה הנפוצה ביותר בכל המערכות: למשל, מטבעות נחושת ישנות הפכו ל"כסף" במובן מודרני, מה ששינה בשקט את התחושה ההיסטורית של הכפר. Gemini השמיט הכי הרבה חומר, לעתים קופח ביטויים תיאוריים שמחברים דמויות או בונים אווירה. GPT-4 הוסיף לרוב שפה שיפוטית מיותרת, והפך רמז עדין לרומנטיקה ל"רומן" מפורש, מה שמשנה את אופן ההסתכלות של הקוראים על הדמויות. אזכורים תרבותיים היו פגיעים במיוחד: חפצים יומיומיים הקשורים לחיים טקסיים, כמו קטורת ונרות, או שמו של גיבור אגדתי, לרוב הושוו, עוכתבו או תורגמו באופן מדי מילולי. ברמת הפסקאות השלמות, חלק מהדגמים סידרו בעדינות מחדש מי עומד במרכז המטאפורה או הסצנה, מה שהחליש מערכות יחסים מרכזיות, כגון הקשר הרגשי בין הילדה צויצווי לסבא שלה.
מבט מעמיק על חוזקות יחסיות
לא כל המערכות הופיעו באותה רמה. GPT-4o, דגם חדש ומותאם יותר, עשה באופן עקבי פחות שגיאות מ־GPT-4 כמעט בכל קטגוריה, מה שמרמז כי כוונון זהיר יכול להיות חשוב יותר מגודל מודל טהור. הוא השמיט פחות תוכן ותרגם פחות ביטויים באופן שגוי, ונוטה לשמור על שלמות הסיפור בין המשפטים. לעומת זאת, Gemini הציג את חולשתו הגדולה ביותר בהשמטות, במיוחד בפסקאות עשירות בדימויים ורמזים תרבותיים. WXYY 4.0 Turbo, על אף שאומן בהקשר סיני, לא עלה באופן ברור על מקביליו הזרה בפסקאות הכבדות בתרבות; הוא עדיין התייחס למונחים היסטוריים וטקסיים כאילו היו חפצים מודרניים שגרתיים. בכל הגרסאות המכאניות הללו, התרגום האנושי נותר האמין ביותר בקשירת משמעות, אווירה ותרבות.

מה המשמעות לעתיד הקריאה בתרגום
לעבודות יום־יום וטקסטים ברורים, דגמי שפה גדולים כבר מספקים עזרה מרשימה. אך המחקר הזה מראה שבכל הנוגע ליצירות ספרותיות כמו "עיר הגבול", הם עדיין מפספסים שכבות חיוניות של משמעות ורגש. הדגם המוביל, GPT-4o, מתקרב יותר מאחרים אך עדיין זקוק לפיקוח אנושי, במיוחד בכל הקשור לתרבות ולמבנה הסיפור. המחברים טוענים כי הנחיות טובות יותר, אימון ממוקד יותר ועריכה מערכתית על ידי בני־אדם הם חיוניים אם הבינה המלאכותית אמורה לתמוך, ולא להחליף, מתרגמים ספרותיים. לקוראים, המסר ברור: פלט מכונה יכול לשמש כטיוטה מועילה או סיוע, אך החיים הרגשיים והתרבותיים המלאים של רומן עדיין תלויים באמנות אנושית.
ציטוט: Yang, W., Yang, M. Evaluating literary translation by large language models: a multidimensional quality assessment of Shen Congwen’s Border Town. Humanit Soc Sci Commun 13, 628 (2026). https://doi.org/10.1057/s41599-026-06868-y
מילות מפתח: תרגום ספרותי, דגמי שפה גדולים, איכות תרגום מכני, ספרות סינית, ניואנס תרבותי