Clear Sky Science · he

מסגרת פיוז'ן רב‑נתיב עם העשרת ידע לזיהוי ישויות מרובה‑מודאלי בציורים סיניים

· חזרה לאינדקס

ללמד מחשבים "לקרוא" ציורים סיניים

מחסני המוזיאונים מאחסנים כיום אוספים דיגיטליים עצומים של ציורים סיניים — תמונות ברזולוציה גבוהה מצורפות לתיאורים עשירים — אך רוב המידע הזה נעול בטקסט לא‑מובנה ובתמונות ללא תיוג. מחקר זה מראה כיצד שילוב ניתוח תמונה, טכנולוגיית שפה וידע תרבותי יכול לסייע למחשבים לזהות אוטומטית אנשים מרכזיים, מקומות, תקופות ותכונות אמנותיות בציורים סיניים, ולהקל על חיפוש, מחקר ושימור המורשת.

Figure 1
Figure 1.

מדוע ציורים סיניים קשים למכונות

הציור הסיני הוא יותר ממעט דיו על משי; הוא שוזר נוף, דמויות, שירה, קליגרפיה וחותמות, הכל נטוע בהיסטוריה. רישומי המוזיאון משקפים את העושר הזה: תיאורים ארוכים מזכירים שושלות, אולפנים, משיכות מכחול ואספנים, בעוד שהתמונות מציגות הרים, קומותות, צמחים וחותמות אדומות. עם זאת, הניסוח לעתים קרובות עקיף ופואטי. מונח בודד כמו "אבן לבנה" עשוי להתייחס לסלע בסצנה או לשם של צייר מפורסם, בהתאם להקשר. כלים קיימים לזיהוי שמות ישויות — תוכנה שמתייגת שמות של אנשים, מקומות וישויות בטקסט — אומנו על חדשות כלליות או רשתות חברתיות, לא על תחום האמנות המיוחד הזה, ולכן הם מפספסים פרטים תרבותיים ספציפיים ומתקשים לקשר בין הטקסט למה שמופיע בתמונה.

בניית מאגר נתונים המותאם לאמנות מורשת

כדי להתמודד עם הבעיה, המחברים יצרו תחילה את CP‑MNER, מאגר מבחן חדש המתמקד בציור הסיני. הם אספו 1,188 זוגות טקסט‑תמונה באיכות גבוהה, בעיקר מאוספי המוזיאון הארמון המקוונים והושלמו בערכי אנציקלופדיה. לאחר ניקוי אוטומטי ובדיקות ידניות, תיאורי כל ציור הותאמו לתקן ויושרו בקפידה עם תמונתו. מומחים עיצבו סט מפורט של 16 סוגי ישויות המשקפים דאגות היסטוריות‑אמנותיות: לא רק PERSON, TIME ו‑LOCATION, אלא גם כותרים של יצירות, כתובות חותמות, טכניקה, חומר, סגנון, צמחייה, דמות בתמונה ועוד. באמצעות תהליך דו‑שלבי — קידום תיוג אוטומטי עם מודל שפה גדול ולאחריו תיקון על‑ידי מומחים — תיוגו למעלה מ‑32,000 ישויות. כל תיאור ממוצע מכיל כ‑280 תווים סיניים וכ‑27 ישויות, מה שהופך את CP‑MNER למבחן צפוף ומאתגר.

כיצד המערכת החדשה "מבינה" ציורים

על גבי המאגר הזה הצוות הציע את MFKA, מסגרת שלומדת את המחשב להבין ציורים על ידי פיוז'ן של שלוש זרמי מידע: טקסט, תמונה וידע חיצוני. ראשית, מודל שפה מעבד את התיאור, בעוד שרשת חזונית עמוקה מחלקת את הציור לאזורים ומחלצת תכונות חזותיות. שלב אינטראקציה חוצי‑מודאליות מאפשר לכל מילה "להסתכל" על חלקים רלוונטיים בתמונה, ויוצר ייצוגי טקסט המודעים למה שמופיע בציור — שימושי, למשל, בקבלת החלטה האם "אבן לבנה" מתייחסת לסלע או לאדם.

Figure 2
Figure 2.

הוספת ידע תרבותי כדי למלא את הפערים

MFKA מתקדם עוד שלב על‑ידי בקשת מודל שפה גדול רב‑מודאלי — כזה שיכול לראות תמונות ולקרוא טקסט — לספק ידע תרבותי. בשלב הראשון, מודל העזר מסכם את האלמנטים החזותיים המרכזיים של הציור, כגון בעלי חיים, צמחים, מבנים או דמויות. בשלב השני, הוא משתמש בסיכום הזה בנוסף לתיאור כדי לרשום ישויות סבירות וסוגיהן (למשל, שמחרוזת מסוימת היא כותרת ציור, טכניקה או חותם). ידע עזר זה מומר חזרה לטקסט, מקודד וממוזג עם התיאור המקורי באמצעות מנגנוני קשב. מודול פיוז'ן מיוחד מאזן בין שלושת הנתיבים — טקסט פשוט, תכונות תמונה המודעות לטקסט, וידע המודע לטקסט — ומבליט טוקנים שסביר ביותר שהם ישויות תוך שמירה על רמזים משלימים מכל מקור.

מה מראים הניסויים

כאשר נבחן על CP‑MNER, MFKA עלה על מגוון מערכות חזקות חד‑ממדיות ומולטי‑מודאליות, והשיג את ציון ה‑F1 הכולל הגבוה ביותר (מדד דיוק מקובל). הוא הצטיין במיוחד בקטגוריות שבהן ההקשר החזותי או הרמזים התרבותיים חשובים, כגון להבחין בין בעלי חיים וחפצים, או ארגונים כמו מוזיאון הארמון מול מקומות פיזיים או מבנים. מחקרי אבולציה מדוקדקים הראו שכל חלק במסגרת — אינטראקציה תמונה‑טקסט, העשרת ידע ותוכנית פיוז'ן מתוחכמת — תרם לשיפורים, ושעל‑ידי הורדתם באופן הדרגתי הביצועים חזרו לכיוון דגמי טקסט שגרתיים. חשוב לציין שגם בסט נתונים לא קשור מרשתות חברתיות MFKA עבד בתחרותיות, מה שמעיד על גמישות העיצוב מחוץ לעולם האמנות.

מה משמעות הדבר עבור מורשת תרבותית

לא‑מומחים, המסקנה היא שהמחברים לימדו מערכת מחשב "לקרוא" ציורים סיניים הרבה יותר כמו אוצר מומחה, על‑ידי התחשבות משותפת במה שכתוב, במה שצויר ובמה שידוע מההיסטוריה של האמנות. מאגר הנתונים CP‑MNER מספק נקודת ייחוס ציבורית לעבודה עתידית, ו‑MFKA מראה ששילוב רמזים חזותיים עם ידע תרבותי שנוצר על‑ידי מכונה יכול לחשוף פרטים דקים שנקברו ברשומות המוזיאון. בטווח הארוך, כלים כאלה עשויים להניע חיפושים חכמים יותר, תערוכות מקוונות עשירות יותר וגרפי ידע רחבים שמקשרים אמנים, סגנונות, חומרים ומוטיבים בחוצות אוספים, ועוזרים לחוקרים ולציבור לחקור את הציור הסיני בדרכים חדשות.

ציטוט: Wan, J., Chen, S., Zeng, Q. et al. A multi-path fusion with knowledge augmentation framework for multimodal NER in Chinese painting. npj Herit. Sci. 14, 265 (2026). https://doi.org/10.1038/s40494-026-02528-1

מילות מפתח: ציור סיני, בינה רב‑מודאלית, זיהוי שמות ישויות, מורשת תרבותית, גרפי ידע