Clear Sky Science · he

הערכת קריאות של תרגומים לאנגלית של קלאסיקות סיניות: מחקר מבוסס XGBoost ורשתות עצביות BP

· חזרה לאינדקס

מדוע חכמה עתיקה עדיין זקוקה לאנגלית ברורה

האנלקטים של קונפוציוס עיצבו את המחשבה הסינית במשך יותר מאלפיים שנה, ועדיין רבים מקוראי האנגלית מתקשים לעקוב אחריהם. תרגומים שונים מנסים להיות נאמנים למקור ובאותו הזמן קריאים, אך לא ברור אילו מהגרסאות קלות יותר להבנה לקהל של היום. מאמר זה משתמש בטכנולוגיות שפה מודרניות ובלמידת מכונה כדי למדוד עד כמה קריאים כמה תרגומים לאנגלית של האנלקטים, ומציע דרך מונחת-נתונים לחשוב על האופן שבו יצירות קלאסיות עוברת שפות ותרבויות.

Figure 1
Figure 1.

קולות רבים עבור ספר קלאסי אחד

המחקר מתמקד בחמישה תרגומים מלאים לאנגלית של האנלקטים, שנעשו בין המאה התשיעית-עשרה ועד המאה העשרים ואחת על ידי ג'יימס לג', ויליאם ג'נינגס, ד. סי. לאו, אדוארד סלינגרלנד וברטון ווטסון. כל חמשת המתרגמים עבדו מתוך המקור בסינית קלאסית, אך עשו בחירות סגנוניות ופירושיות שונות. כדי להשוות ביניהם באופן הוגן, החוקרים חלקו כל תרגום ל-1412 שורות קצרות שמתאימות בקירוב לחלוקת האמרות במסורת הסינית. שלושה תרגומים שימשו לאימון המודלים, ושניים הוחזקו בצד כדי לבדוק עד כמה המודלים יוכלו לשפוט קטעים חדשים.

להפוך משפטים לאותות מדידים

במקום להסתמך על נוסחה ידועה יחידה כמו Flesch Reading Ease, החוקרים בנו מערך עשיר בהרבה של 114 מדדים לכל שורה בקורפוס. חלקם היו נוסחאות קריאות מסורתיות הבוחנות תכונות בסיסיות כמו אורך המשפט וגודל המילה הממוצע. אחרים נקשרו למאפייני אוצר המילים — כמה מילים ארוכות או נדירות מופיעות, עד כמה הבחירה במילים מגוונת, ועד כמה המידע צפוף. קבוצה שלישית תיארה מבנה משפטי, למשל כמה פרקים (clauses) יש במשפט או כמה לעתים מופיעות דפוסי דקדוק מסוימים. לבסוף, נוסף טוויסט מודרני: מודל שפה גדול (BERT) העריך עד כמה כל שורה היא "טיפוסית" סמנטית ביחס לשאר הקורפוס, וסיפק מדד דחוס של קוהרנטיות ברמת המשמעות.

ללמד מכונות לחוש קושי

באמצעות מדדים אלה, המחברים אימנו שני מודלי למידת מכונה — מודל XGBoost ורשת עצבית פשוטה בהחזרת שגיאה (backpropagation) — כדי לנבא ציוני קריאות מורכבים לכל שורה. ציונים אלה התבססו על פלט משולב של תשע נוסחאות מסורתיות, מה שנתן למודלים יעד יציב ללמוד ממנו. לפני האימון בחנו החוקרים עד כמה כל מדד מקושר בחוזקה לציונים. שורות העמוסות במילים ארוכות, בעלות מספר הברות רב או במונחים טכניים קשים נטו להיקבע כקשות יותר, כמו גם שורות עם יותר תווים בסך הכל ומבנים משפטיים מורכבים יותר. לעומת זאת, כמה ספירות דקדוקיות דקיקות שיחקו תפקיד צנוע בלבד. שניהם, מודלי למידת המכונה השחיזו היטב את דפוסי האימון על נתונים מוחזקים, מה שמרמז כי התערובת הזו של תכונות תופסת הרבה ממה שעושה קטע מהאנלקטים קל או קשה לקריאה.

Figure 2
Figure 2.

להשוות בין מתרגמים במבט חטוף ובמבט ממוקד

לאחר האימון, המודלים שוחררו על שני התרגומים הנבדקים של סלינגרלנד וווטסון. ברמה הרחבה החוקרים קיבצו את הציונים החזויים לרצועות מקלות עד קשות וספרו כמה שורות מכל תרגום נופלות בכל רצועה. הגרסה של ווטסון יצאה במעט קלה יותר בסך הכל: יותר משורותיו נחתו ברצועות בעלות קריאות גבוהה, בעוד סגנון סלינגרלנד השתמש במשפטים ארוכים יותר ובניסוח מורכב יותר בתדירות גבוהה יותר. ברמה מדויקת יותר, הצוות בחן אמרות בודדות שבהן שני המתרגמים סטו זה מזה באופן חריף. במקרים אלה, שורות קשות בדרך כלל שילבו מספר גורמים — משפטים ארוכים יותר, סמנים מקוננים (nested clauses), אוצר מילים מופשט או נדיר ופרשנות צפופה הדחוסה לשורה אחת — בעוד ששורות קלות נטו להעדיף ניסוח קצר וישיר ובחירות מילים פשוטות יותר.

מה משמעות הממצאים לקוראים ולמתרגמים

לקוראים לא-מומחים שרוצים לגשת לקונפוציוס באנגלית, המחקר מציע שחלק מהתרגומים מציעים דרך חלקה יותר מאחרים, לפחות במונחי מאמץ קריאה גולמי. למתרגמים וחוקרים, הוא מראה כיצד כלים כמותיים יכולים להשלים קריאה מעמיקה מסורתית על ידי חשיפת דפוסי קושי על פני אלפי שורות. המחברים מדגישים כי הקריאות היא היבט אחד בלבד של תרגום טוב; נאמנות למשמעות המקורית ולסגנון הספרותי חשובות גם הן. עם זאת, על ידי חשיפת האופן שבו אורך המשפט, המבנה ובחירת המילים מעצבים את חוויית הקריאה של האנלקטים באנגלית, עבודה זו מצביעה על מהדורות נגישות יותר של הקלאסיקות הסיניות ובהמשך על שיח בין-תרבותי ברור יותר.

ציטוט: Yang, L., Zhou, G. Readability assessment of English translations of Chinese classics: a study based on XGBoost and BP neural networks. Humanit Soc Sci Commun 13, 588 (2026). https://doi.org/10.1057/s41599-026-06878-w

מילות מפתח: קריאות טקסט, למידת מכונה, אנלקטים של קונפוציוס, תרגום ספרותי, עיבוד שפה טבעית