Clear Sky Science · he
מערך זיהוי ישויות בשם סיני למורשת תרבותית בלתי מוחשית
מדוע הגנה על מסורות חיות זקוקה לקריאה חכמה
בהיקפים ברחבי העולם, מסורות חיות כמו מוזיקה עממית, מלאכות יד וחגיגות מקומיות עומדות בסיכון להיעלם מהיום‑יום. בסין יש כמות עצומה של כתובים שמתארים פרקטיקות אלה, אך רובם מצויים בעמודי אינטרנט ארוכים שקשה לאנשים — או למחשבים — לחפש ולנתח. מחקר זה מציג מאגר נתונים מתוכנן בקפידה בשפה הסינית ומודל בינה מלאכותית מתקדם שיכול לזהות אוטומטית קטעי מידע מרכזיים בטקסטים אלה, כגון שמות מלאכות, אדוני מלאכה, חומרים ומיקומים. ביחד הם מספקים כלים חדשים שיכולים לסייע בשימור ולימוד מורשת תרבותית בלתי מוחשית בקנה מידה דיגיטלי.

להפוך טקסט מבולגן לידע מאורגן
הרעיון המרכזי בטכנולוגיה הוא זיהוי ישויות בשם, שמלמד מחשבים לסמן פריטים חשובים בטקסט: אנשים, מיקומים, מועדים, ארגונים ועוד. בהקשר של מורשת תרבותית בלתי מוחשית זה גם אומר לזהות סוגים מיוחדים של ישויות כמו שמות פרויקטים של מורשת, טכניקות מלאכה ספציפיות והחומרים הנמצאים בשימוש. הבעיה הייתה שלפני כן לא היה מאגר ציבורי מותאם לתחום הזה בסינית, ומערכות כלל‑מטרתיות התקשו עם תיאורים חיים, ניסוח פיוטי וביטויים אזוריים הנפוצים במסמכי מורשת.
בניית אוסף ממוקד של טקסטי מורשת
כדי למלא את הפער, המחברים אספו מאגר חדש בשם ICH-NER מתוך רשת המורשת הבלתי מוחשית הרשמית של סין. הם התמקדו ברשומות הקשורות למלאכות — כגון טקסטיל מסורתי, קרמיקה, עבודה על מתכות ופיסול — כי תיאורים אלה עשירים בפרטים על תהליכים וחומרים. לאחר סינון הודעות וכפילויות עיצבו החוקרים שמונה קטגוריות מרכזיות של ישויות: שמות פריטי מורשת, מיקומים, אנשים, ארגונים, תקופות זמן, קבוצות אתניות, חומרים ומלאכות. כל תו סיני בטקסטים סומן עם קוד פשוט המצביע האם הוא שייך לישות ואם כן — מאיזה סוג. בסך הכל המידע כולל 7,779 דוגמאות ולמעלה מ‑21,000 ישויות מתוייגות, מה שהופך אותו לאבן מבחן מוצקה למחקר עתידי.
כללים קפדניים לתיוג עקבי
מכיוון שלא התקיים סטנדרט סיווג לטקסטים מסוג זה, החוקרים ניסחו תחילה קווים מנחים מפורטים המבוססים על רשימות המורשת הלאומיות ותיאורים רשמיים. הם ערכו שלב ניסיון לטיפול במקרים מסובכים, כמו מקומות שהם חלק גם משמות פרויקטים, או ביטויים מקוננים שבהם ישות אחת נמצאת בתוך אחרת. עובד תיוג מאומן אחד תייג את כל המאגרים באמצעות תוכנה בקוד פתוח, וחזר שוב ושוב על עבודתו הקודמת כדי לתקן חוסר־עקביות. הנתונים הסופיים נחלקו למערכי אימון ופיתוח, תוך תשומת לב לשמירה על אחוזים דומים של כל סוג ישות ותערובת טובה של מונחים אזוריים וסגנונות כתיבה בשני החלקים.
עיצוב מודל בינה מותאם לשפת המורשת
לצד המאגר, המחקר מציע מודל זיהוי ייעודי שמחבר כמה רכיבי בינה מודרניים. ראשית, מקודד שפה חזק (RoBERTa) ממיר את התווים הסיניים לייצוגים מספריים המותאמים להקשר ומשקפים כיצד מילים משמשות בסביבה הטקסטואלית. לאחר מכן מודול רשת קולמוגורוב–ארנולד לומד תבניות לא‑ליניאריות עדינות — כמו כיצד חומרים מסוימים נוטים להופיע יחד עם טכניקות או אזורים מסוימים. שכבת תשומת לב מרובת‑ראשיים בוחנת יחסים לאורך המשפט כולו מזוויות שונות, ולבסוף שכבת דיקוד בוחרת את הרצף הסביר ביותר של תגיות ישות. ארכיטקטורה זו נועדה להתמודד עם משפטים ארוכים ומורכבים המלאים במטאפורות ובהפניות תרבותיות רב‑שכבתיות.

כמה טוב המערכת מבינה טקסטי מורשת
המחברים השוו את המודל שלהם למספר בסיסים חזקים בשימוש במחקר שפה, כולל מערכות מבוססות רשתות חוזרות, מבני רשת לרטיס לטקסט סיני ושיטה עדכנית שמתייחסת לישויות כסגמנטים המיטבים שלב אחרי שלב. במאגר ICH-NER, שיטות המשתמשות במודלים מודרניים מאומנים מראש הצטיינו בבירור על פני שיטות ישנות. המערכת המשולבת RoBERTa–KAN–attention–decoder השיגה את האיזון הטוב ביותר בין דיוק לזכירה, במיוחד בקטגוריות מאתגרות כמו חומרים, ארגונים וטכניקות מלאכה, שבהן הנתונים יחסית מצומצמים והתיאורים לעתים מורכבים או דו־משמעיים.
מה זה אומר עבור תרבות חיה בעידן הדיגיטלי
ברמה מעשית, המאגר והמודל החדשים מקלים על מחשבים לזהות מי, מה, היכן ומתי מתוך תיאורים עשירים של מלאכות מסורתיות. מידע מובנה זה יכול להזין גרפי ידע, מפות אינטראקטיביות וכלי חיפוש שיעזרו לחוקרים, אוצרים וציבור לחקור כיצד טכניקות התפשטו, כיצד משפחות או אזורים עורכים צורה למלאכה ואיך פרקטיקות מתפתחות לאורך זמן. למרות שהעבודה טכנית, השפעתה היא אנושית: היא מציעה דרך להפוך תיאורים מפוזרים התלויים בטקסט של מסורות חיות לידע מאורגן שיכול לתמוך טוב יותר בשימור ובהבנת המורשת התרבותית הבלתי מוחשית.
ציטוט: Long, S., Li, W. A Chinese Named Entity Recognition Dataset for Intangible Cultural Heritage. Sci Data 13, 335 (2026). https://doi.org/10.1038/s41597-026-06700-x
מילות מפתח: מורשת תרבותית בלתי מוחשית, זיהוי ישויות בשם, עיבוד שפה סינית, מאגרי מידע תרבותיים, שימור דיגיטלי