Clear Sky Science · he

BA-RILA מבוסס מיזוג תכונות טקסט רב־ממדי לזיהוי נושאים בשירים סיניים עתיקים

· חזרה לאינדקס

מדוע חשוב ללמד מחשבים לקרוא שירים עתיקים

שירים סיניים עתיקים מכילים מאות שנות רגש, היסטוריה וחיי יום־יום, אך שפתם כה שונה מהסינית המודרנית עד שגם מומחים מתווכחים על משמעותן. ככל שיותר ספריות ומוזיאונים מדיגיטליים את היצירות האלה, גדלה הדרישה לכלים חכמים שיסווגו במהירות שירים לפי נושא, ויאפשרו לחוקרים, לסטודנטים ולציבור לחקור אוספים עצומים. המחקר הזה מציג שיטה חדשה שמאפשרת למחשבים לזהות על מה מתמקד שיר עתיק, תוך שימוש לא רק במשמעות המילים אלא גם בקצב ובדימויים כדי ללכוד טוב יותר את רוח הפואטיקה הקלאסית.

הפיכת שירים קלאסיים לנתונים

כדי ללמד מחשב על שירה, החוקרים נזקקו קודם כל לבסיס נתונים מתאים. הם אספו כ־10,000 שירים מן השושלות המרכזיות, בעיקר טאנג וסונג, ותויגו בקפידה לשישה נושאים רחבים כגון חברות והפרדה, היסטוריה וגעגוע, נופים וכפר, אהבה ונישואין, געגוע לבית, ומרחב גבולי ומלחמה. הם הסירו טקסטים רועשים או לא שלמים, פרקו את הסינית הקלאסית למקטעים, וסיננו מילים פונקציונליות שאינן נושאות משמעות רבה. ניתוחי ענן מילים הראו שלכל נושא אוצר מילים אופייני משלו, מה שאישר שהתיוגים תואמים היטב לתוכן פיוטי.

Figure 1. איך בינה מלאכותית ממיינת אוספים גדולים של שירים סיניים עתיקים לפי נושאים באמצעות משמעות, צליל ודימויים.
Figure 1. איך בינה מלאכותית ממיינת אוספים גדולים של שירים סיניים עתיקים לפי נושאים באמצעות משמעות, צליל ודימויים.

מיזוג משמעות, צליל ודימויים

רוב טכנולוגיות השפה מתמקדות במשמעות המילים בלבד, אך השירה הסינית הקלאסית נשענת גם על דפוסי צליל ודימויים סימבוליים. המודל החדש BA-RILA משלב שלושה סוגי מידע. ראשית, הוא משתמש בגרסה של מודל השפה BERT שאומנה מחדש על סינית עתיקה, כדי לאפשר למחשב להבין טוב יותר דקדוק עתיק וביטויים קלאסיים. שנית, הוא מודד קצב באמצעות אחד עשר תכונות מספריות שתופסות חריזה, אורך שורות, דפוסי טונים ומבני זוגות שורות, המשקפות איך השורות נשמעות ומתאזנות. שלישית, הוא עוקב אחרי דימוי פיוטי באמצעות תיאור בן 75 פריטים שנבנה מתוך 25 סמלים תרבותיים חשובים, כגון עצי ערבה להיפרדויות או ירח לכמיהה, כל אחד עם תדירות, גוון רגשי ועוצמה בתוך השיר.

איך המודל לומד משירים שלמים

שלוש זרימות המידע האלה נבדלות בקנה המידה שלהן, לכן המערכת ממפה אותן תחילה לחלל משותף ומשתמשת במנגנון קשב פנימי כדי להחליט כמה משקל לתת למשמעות, לקצב ולדימויים בכל שיר. התכונות הממוזגות עוברות לאחר מכן דרך שתי שכבות של רשת חוזרת דו־כיוונית שקוראת את השיר קדימה ואחורה, כדי לתפוס איך המשמעות מתפתחת לאורך הזמן. מודול קשב רב־ראשי מדגיש עוד יותר את החלקים המשותפים והמידעיים ביותר של הייצוג על ידי בחינתם ממספר זוויות במקביל. לבסוף סט שכבות מחוברות באופן מלא ממיר את התמונה הפנימית העשירה הזו להסתברות על ששת הנושאים, ומחליט איזה נושא מתאים ביותר לשיר.

Figure 2. איך מודל בינה מלאכותית מאחד שלב אחר שלב משמעות, קצב ותמונות פיוטיות כדי להחליט על נושא של שיר יחיד.
Figure 2. איך מודל בינה מלאכותית מאחד שלב אחר שלב משמעות, קצב ותמונות פיוטיות כדי להחליט על נושא של שיר יחיד.

כמה טוב המערכת עובדת

מבחנים מקיפים מראים ש־BA-RILA עולה בבירור על מספר מודלים מתחרים חזקים שמתבססים רק על BERT מודרני, על רשתות קונבולוציה או על עיצובים חוזרים פשוטים יותר. במשימת ששת הנושאים השיטה החדשה מגיעה לדיוק של כ־97 אחוז, עם ביצועים יציבים גם בנושאים פחות שכיחים. כאשר המחברים הסירו חלקים בודדים מהמערכת, כגון ה‑BERT האומן על סינית עתיקה, מיזוג הקצב והדימויים, השכבות החוזרות או מודול הקשב, הביצועים ירדו באופן ניכר, מה שמעיד שכל רכיב תורם באופן משמעותי. המודל גם טיפל בשירים משתי תקופות הטאנג והסונג, אם כי מצא ששירי סונג קשים יותר במקצת משום שקצביהם פחות סדירים ושפתם מפוזרת יותר.

מה המשמעות לחקר הספרות הקלאסית

עבור מי שאינו מומחה, המסקנה המרכזית היא ששילוב משמעות המילים עם צליל ודימויים סימבוליים מאפשר למחשבים למיין שירים עתיקים לפי נושאים באופן המשקף טוב יותר שיטות קריאה מסורתיות. במקום לראות שירה כטקסט יבש, הגישה של BA-RILA מכבדת את המוזיקליות והדימויים התרבותיים שלה, מה שמוביל לתיוג אוטומטי אמין יותר. כלים כאלה יכולים להקל על חיפוש בארכיונים גדולים, להשוות משוררים בין שושלות, או לחקור כיצד נושאים כמו געגוע לבית או מלחמה התפתחו עם הזמן — תומכים הן במחקר האקדמי והן בהערכה הציבורית של התרבות הקלאסית הסינית.

ציטוט: Zhang, X., Liu, Y. Multi-dimensional text feature fusion-based BA-RILA for ancient Chinese poetry theme recognition. Sci Rep 16, 16573 (2026). https://doi.org/10.1038/s41598-026-48986-2

מילות מפתח: שירה סינית עתיקה, סיווג נושאים, מיזוג תכונות טקסט, דימוי פיוטי, NLP תרבותי