Clear Sky Science · he

SCAD: למידה ניגודית עצמי‑ממונת לגילוי אזכורונים בשירי סינית קלאסית

· חזרה לאינדקס

מסריהן הנסתרים של הוורדים העתיקים

שירי הסינית הקלאסית מלאים בהתייחסויות חבויות לסיפורים, לאגדות ולדמויות היסטוריות מוכרות. "אזכורונים" אלה מוסיפים עומק רגשי ועושר תרבותי, אך גם מקשים על ההבנה עבור קוראים מודרניים — וגם עבור מחשבים. מאמר זה מציג מערכת בינה מלאכותית חדשה, SCAD, שיכולה לחשוף באופן אוטומטי את ההפניות הקבורות בקנה מידה רחב, ובכך לפתוח פתח לכלים דיגיטליים חכמים יותר לקריאה, הוראה ומחקר של ספרות סינית.

מדוע אזכורונים חשובים בשירה

מאז ומעולם הסתמכו משוררים סינים על אזכורונים כסוג של קיצור ספרותי. על ידי רמיזה לסיפור ידוע — כמו כפר נסתר אידילי או אלת נהר אךובה — יכלו לבטא רגשות מורכבים בכמה תווים בודדים. הבעיה היא שהרמזים הללו לעיתים עדינים מאוד. שיר עשוי לא להזכיר את שם הסיפור עצמו; במקום זאת הוא מעורר מקום, חפץ או דימוי הקשור למסורת. מאחר שמילה זהה יכולה לרמוז לסיפורים שונים בהתאם להקשר, גם מערכות מחשב מתקדמות מתקשות לזהות באופן מהימן לאיזה אזכור משייך השיר, במיוחד כאשר קיימים אלפי מועמדים אפשריים ונתוני אימון מתויגים מוגבלים.

Figure 1
Figure 1.

ללמד מכונות ללמוד מהשוואות

החוקרים מתמודדים עם האתגר באמצעות אסטרטגיה שנקראת למידה ניגודית עצמי‑ממונת, המותאמת במיוחד לסינית קלאסית. במקום לבקש מבני אדם לתייג כל שיר באזכור הנכון, הם בונים אוסף גדול של זוגות שיר‑אזכור מאתר מסודר שמתעד כיצד למעלה מ‑14,000 שירים מצטטים 1,025 אזכורונים ספציפיים. עבור כל זוג אמיתי — שיר שאכן משתמש בסיפור מסוים — הם יוצרים אוטומטית זוגות "שליליים" על ידי התאמת אותו שיר לרבים מהאזכורונים שאינם קשורים. SCAD לומד להבחין בין הזוג האמיתי לאלה המזוייפים על ידי קרבירת טקסטי השיר והאזכור הקרובים יותר במרחב הייצוג הפנימי שלו ודחיקת הלא קשורים הרחק.

מודל מותאם לטקסטים סיניים עתיקים

מתחת למכסה המנוע, SCAD נשען על SikuBert, מודל שפה שאומן על אוספים נרחבים של כתבים פרה‑מודרניים בסינית. המערכת מזינה הן את השיר והן את האזכור (כולל קטע המקור שלו) לממקוד משותף, מה שמאפשר למודל להתמקד באופן שבו ביטויים ספציפיים בשיר מתקשרים לפרטים מהסיפור. מודולי "מסתגל" קלים (adapters) נוספים לממקוד כך שרק מספר קטן של פרמטרים חדשים נדרש לאימון, מה שהופך כוונון‑דק ליעיל. פונקציית אובדן משופרת משקלת יתר על הדוגמאות השליליות הקשות ביותר — האזכורונים המטעים שהמודל נאלץ לבחור — כדי ש‑SCAD ילמד מהטעויות הנפוצות ביותר שלו במקום רק מהמקרים הקלים.

עוקף גישות קיימות

כאשר נבדק מול מגוון אלטרנטיבות — כולל מערכות למידה עמוקה קודמות, שיטות מבוססות חוקים ואפילו מודלים לשוניים כלליים גדולים — SCAD מראה דיוק גבוה יותר בזיהוי האזכור הנכון בשיר. הוא לא רק מדרג את התשובה הנכונה גבוה יותר בממוצע אלא גם מזהה אותה כבחירה המובילה בכ‑כארבע מתוך חמשת מקרים במבחן, יתרון ברור על פני טכניקות קודמות. מחקרי הגרעה (ablation) מראים שכל בחירה עיצובית תורמת: אימון מוקדם על שפה קלאסית ולא מודרנית, הכללת טקסט המקור המלא של האזכור, הוספת adapters והענקת משקל מחדש לדוגמאות שליליות קשות — כולם משפרים ביצועים, במיוחד על אזכורונים נדירים או עדינים.

Figure 2
Figure 2.

גילוי קישורים חדשים ובניית מפות ידע

מעבר לדיוק הגולמי, המחברים בוחנים כיצד SCAD יכול להכליל ולהסביר את החלטותיו. במבחני "אפס‑ירי" (zero‑shot) הם מסירים בכוונה אזכורונים מפורסמים וכל השירים הקשורים אליהם מאימון, ואז מבקשים מ‑SCAD לזהותם בכל זאת. המערכת עדיין מפגינה ביצועים חזקים, מה שמרמז שהיא למדה דפוסים כלליים לגבי האופן בו משוררים מרמזים על סיפורים במקום לזכור רשימה קבועה. כדי להציץ בתוך ההחלטות הללו, הצוות מיישם שיטת פרשנות בשם LIME, שמדגישה את המילים הספציפיות בשיר שמשפיעות ביותר על תחזית SCAD. באמצעות אותות אלה הם לחלץ כמעט 10,000 "מילות אזכור" ולבנות גרף ידע המקשר בין שירים, ביטויים מעוררי זיכרון והסיפורים שהם מזכירים — משאב שיכול להניע חיפוש, כלי למידה וחידונים אינטראקטיביים.

להביא רמזים עתיקים לעידן הדיגיטלי

בעיקרון, עבודה זו מראה שעם אותות אימון בארגון נכון וארכיטקטורה מותאמת, מכונות יכולות להתחיל לתפוס את היותה של השירה הקלאסית מלאת קריצות והטיות ספרותיות. SCAD לא רק מזהה איזה סיפור שיר מעורר בדממה אלא גם יכול להכליל לאזכורונים חדשים ולעזור למפות את רשת ההתייחסויות המורכבת הקושרת בין שירים זה לזה ולמסורת התרבותית הרחבה יותר. עבור קוראים, תלמידים וחוקרים, מערכות שבנויות בגישה זו יכולות להפוך למדריכים שמאירים את השכבות הנסתרות של משמעות בכמה מהיצירות העשירות ביותר באזכורונים בעולם.

ציטוט: Shi, B., Bu, W., Li, X. et al. SCAD: self-supervised contrastive learning for allusion detection in Chinese poems. Humanit Soc Sci Commun 13, 293 (2026). https://doi.org/10.1057/s41599-026-06627-z

מילות מפתח: שירה סינית קלאסית, אזכורונים ספרותיים, למידה ניגודית, מדעי הרוח הדיגיטליים, עיבוד שפה טבעית