Clear Sky Science · he

למידת ייצוג עדינה לזיהוי כתב יי במשאבים דלי־נתונים ובנייה של מאגר נתונים

2026-03-26 · חזרה לאינדקס

שימור מורשת כתובה שברירית

עם היי של דרום‑מערב סין שמרו במשך מאות שנים על מסורת כתובה עשירה, שבה תועדו רפואה, אסטרונומיה, דת וחיי היום‑יום בכתב שלהם. רבים מהכתבי יד הללו מטשטשים, מוכתמים או פגועים בצורות אחרות, והכתב עצמו מורכב מבחינה ויזואלית. תמלול ידני של מאות אלפי תווים איטי ויקר. מאמר זה מציג מערכת ראייה ממוחשבת חדשה שנועדה במיוחד לאתר ולהפריד תווי יי בתמונות דיגיטליות של מסמכים ישנים, ומניחת יסוד לדיגיטציה רחבת היקף ולשימור של מורשת כתובה בסכנת אובדן.

מדוע הכתב קשה כל‑כך למחשבים

בניגוד לאלפבית הלטיני המוכר או אפילו לסינית מודפסת מודרנית, תווי יי בנויים ממכאבים צפופים וקמורים שלעיתים מתלפפים זה סביב זה. תווים שונים יכולים להיראות זהים כמעט לחלוטין, ואותו תו עשוי להופיע בצורות מעט שונות לאורך הזמן ובין כתבי היד. דפי היסטוריה משתמשים לעתים בפריסות מרובות עמודות צפופות, עם רווחים לא סדירים ומשיכות חופפות. בנוסף לכך, הדיו עלול לדעוך, הדפים להתעוות והרקע להיות הלמי כתמים. שיטות זיהוי ישנות, ההסתמכות שלהן על כללי מרווחים קשיחים או על מודלים גנריים לזיהוי טקסט, נוטות למזג תווים סמוכים, להחמיץ משיכות חלשות או לבלבל רעשי רקע עם כתב. המחברים טוענים שכתבי יי מהווים סוג של "מקרה הגרוע ביותר" לזיהוי טקסט, ופתרון הבעיה יכול לסייע גם לכתבים אחרים בעלי משאבים דלים.

דרך חדשה לראות פרטים עדינים

כדי להתמודד עם האתגרים האלה, החוקרים תכננו רשת עצבית מותאמת בשם FGRL‑YiNet (Fine‑Grained Representation Learning Network for Yi). ביסודה מדובר בעדכון לשכבות הקונבולוציה הסטנדרטיות, אשר הן העבודה הסיזיפית בזיהוי תמונות מודרני. במקום להשתמש במסנן קבוע יחיד בכל מקום, FGRL‑YiNet משתמשת בקונבולוציה דינמית: מספר מסננים מועמדים פועלים במקביל, ומודול שער קטן מחליט, עבור כל אזור בתמונה, מה מידת ההסתמכות על כל אחד מהם. כך המערכת יכולה להתאים בעדינות את "שדה הקליטה" שלה לדפוסי המשיכות המקומיים, לתפוס טוב יותר קמירות ומפגשים דקים מבלי להיתפס על ידי רקע מסורבל או נזק לדף. המבנה בנוי על שלד ResNet‑18 קומפקטי, והמודל נשמר במכוון בינוני בגודלו כדי שיוכל ללמוד ביעילות מהכמות המועטה יחסית של נתוני יי המסומנים.

שילוב סקאלות וניקוי הדף

זיהוי תווים בעמוד מקיף דורש הבנה של דפוסים בממדים מרובים בו‑זמנית — מהתזזית הזעירה במשיכה יחידה ועד לפריסת עמודה שלמה. FGRL‑YiNet מציגה מודול Adaptive Multi‑Scale Fusion (AMSF) לשם פתרון זה. הרשת תחילה מחלצת תכונות ברזולוציות שונות, ואז משתמשת במנגנון קשב משותף כדי להחליט איזו סקלה ואילו ערוצים חשובים ביותר בכל מיקום. חלק אחד של הקשב מתמקד ב"איפה" בתמונה הפרטים העדינים חשובים, בעוד חלק אחר בוחן "איזה" סוג תכונה שימושית — כמו עובי משיכה מסוים או לולאה קטנה בתוך תו. במקביל, ראש בינאריזציה דיפרנציאבילי לומד להפריד דיו מרקע על ידי חיזוי גם מפה של הסתברויות וגם סף משתנה מקומית. מאחר ששלב זה בנוי בתוך הרשת ומאומן מקצה־אל־קצה, הוא יכול לשמר משיכות חלשות שהמרה שחור‑לבן מסורתית הייתה שוטפת, תוך דיכוי נקודות רעש וכתמים.

בניית מדד לכתב נדיר

מכשול מרכזי לכל כתב מותאם הוא הנתונים: יש מעט כתבי יי מדוגמים באיכות גבוהה, ועשרות מעטים יותר בעלי תוויות מדויקות לכל תו. הצוות מתמודד עם זה על‑ידי בניית מאגר YiPrint‑694 מתוך קלאסיקות יי של ליאנגשאן, שהתוצאה היא כמעט 347,000 תווים מתוייגים בפריסה של 694 תמונות עמודים ו‑1,165 קטגוריות תווים. הם משלבים עיבוד מקדים קפדני — הפחתת רעש, חידוד קצוות ובינאריזציה — עם צינור סגמנטציה חצי‑אוטומטי ובדיקות ידניות מתישות על‑ידי מומחי שפת יי. כדי לדמות מראה של דפים ישנים ומצהיבים, הם יוצרים תמונות נוספות עם רקעים צהובים וחומים. אוסף ממוין זה הופך גם לשדה אימונים ל‑FGRL‑YiNet וגם למדד ציבורי למחקר עתידי על כתב יי וכתבים קרובים.

כמה טוב המערכת מתפקדת

כאשר נוסתה מול מערך רחב של גלאי טקסט מתקדמים, כולל מודלים נפוצים כמו Faster R‑CNN, DBNet++ ו‑PSENet, FGRL‑YiNet השיגה את הציונים הטובים ביותר בכלל על YiPrint‑694. היא מזהה תווים עם F‑score גבוה של 94.7%, שמונע על ידי דיוק מאוד גבוה (98.4%) וזיכרון חזק (91.3%), כלומר היא נדירה בטעות שמזהה רקע כטקסט ובאותו זמן מוצאת את רוב התווים בדף. ניסויי אבולוציה, שבהם מרכיבים בודדים מוסרים, מראים שכל חידוש — קונבולוציה דינמית, מיזוג רב‑סקלי אדפטיבי ובינאריזציה דיפרנציאבילית — תורם רווחים נמדדים, ושכולם עובדים הטוב ביותר יחד. המודל גם משתלב היטב עם העברה למאגר MTHv2 המורחב של טקסטים היסטוריים בודהיסטיים בסינית, שם הוא מתפקד בצורה תחרותית מול גלאים כלליים מובילים, מה שמבליט את הפוטנציאל הרחב שלו.

מה המשמעות לשימור תרבותי

בעיני לא‑מומחים, המסר המרכזי הוא שעיצוב זהיר וממוקד יכול לעזור למחשבים לקרוא חלק מהכתבים המאתגרים ביותר בעולם, גם כאשר קיימים רק נתוני אימון מוגבלים. על‑ידי שילוב מסננים אדפטיביים, מיזוג רב‑סקלי חכם וניקוי מובנה של דפים פגומים, FGRL‑YiNet יכולה לזהות באופן אמין תווי יי בודדים בכתבי יד צפופים ופגומים. הדבר מקל משמעותית על בניית ארכיונים דיגיטליים ניתנים לחיפוש, תומך במחקר לשוני והיסטורי ומגן על הרישום הכתוב של עם היי. המחברים רואים באדריכלות ובמאגר הנתונים שלהם תבנית לפתרון כתבים אחרים הזקוקים לתמיכה ברחבי העולם, ומראים כי התקדמות בבינה מלאכותית יכולה לתרום ישירות לשימור מורשת תרבותית שברירית לדורות הבאים.

ציטוט: Sun, H., Ding, X., Yu, H. et al. Fine grained representation learning for low resource Yi script detection and dataset construction. npj Herit. Sci. 14, 183 (2026). https://doi.org/10.1038/s40494-026-02418-6

מילות מפתח: כתב יי, כתבי יד היסטוריים, זיהוי טקסט, מורשת דיגיטלית, למידה עמוקה