Clear Sky Science · he
מסגרת פרוגרסיבית בשלושה שלבים לשיחזור טקסטים עתיקים של דונגבה
מדוע חשוב להציל את הכתב התיאורי העתיק
עבור בני נאשי בדרום‑מערב סין, ספרי דונגבה מהווים שער לאלף שנות סיפור, טקסים וחיי יום‑יום. ספרים אלה כתובים בכתב נדיר הדומה לתמונות, המשלב ציור ומילה. הזמן, הלחות והטיפול פגעו בדפים רבים, והשאירו חורים ופסים חסרים שהופכים את הסמלים לקשים לקריאה ואפילו לזיהוי. המחקר מציג שיטה דיגיטלית חדשה ל"למלא את הפערים" בטקסטים הרגישים הללו, במטרה לשחזר הן את המראה של הכתיבה והן את משמעותה, ולהציע כלי חזק לשימור תרבותי.
מעמודים שבורים לשחזור דיגיטלי
שימורנים נקטו במשך שנים בשיטות פיזיות לתיקון כתבי יד פגומים, אך כיום השחזור הדיגיטלי מספק דרך נוספת: במקום לגעת במקור, מחשבים יכולים לשחזר חלקים חסרים בתמונת הסריקה. בטקסט מודפס רגיל, אלגוריתמים מודרניים כבר נכונים לנחש אותיות חסרות מהצורות והדפוסים שסביבן. ספרי דונגבה מהווים אתגר קשה יותר. כל סמל הוא ציור קטן שבו הקווים נושאים גם סגנון חזותי וגם משמעות. אם התוכנה פשוט תשלים קווים כדי לקבל מראה חלק, ייתכן שתשנה בטעות את הסמל לדבר שמעולם לא התקיים, ובכך תעוות את הרישום התרבותי. הכותבים טוענים שכל שחזור רציני חייב לכבד גם את המראה האמנותי וגם את הכללים התקניים של מערכת הכתיבה.

מסע בשלושה שלבים מהקווי המתאר למשמעות
צוות המחקר מציע מסגרת פרוגרסיבית בשלושה שלבים, בשם TsP, שתוכננה במיוחד לעמוד בדפי דונגבה שניזוקו קשות. בשלב הראשון המערכת מתמקדת בקווי המתאר בלבד. היא מקבלת את התמונה הפגומה, מזהה היכן היו בעבר הקווים ומשתמשת בהיבריד של שתי טכניקות עוצמתיות — רשתות קונבולוציה הטובות בפרטים מקומיים, ורשתות Transformer הטובות במבנה גלובלי — כדי לשחזר בערך את הקצוות החסרים. התוצאה היא מפה קונטורית משוערת, כסקיצה שמרמזת על הצורה הכוללת של התו גם באזורים החסרים.
להניח לדשנריה דיגיטלית לכוון את התיקון
בשלב השני המערכת משלבת ידע על דונגבה עצמו. החוקרים בנו מילון דיגיטלי של סמלים בשימוש נפוץ בדונגבה, הכולל סגנונות כתב רבים לכל סמל. האלגוריתם משווים את קווי המתאר המשוקמים מהשלב הראשון לכל הערכים במילון ומאתר את התו המלא הדומה ביותר. הוא עושה זאת לא על‑ידי קריאת תוויות טקסט אלא על‑ידי מדידת דמיון הצורות במובן סטטיסטי. הסמל הנבחר משמש כ"פריור תוכן" — השערה הטובה ביותר למה שהתווים החסרים אמורים להיות, ומספק רמזים סמנטיים וגם פרטי קו עדינים ששיטה חזותית בלבד עשויה לפספס.
ללטש את התמונה הסופית
בשלב השלישי והאחרון TsP משלב שתי זרימות מידע: את קו המתאר מהשלב הראשון ואת התו המלא מהמלון. רשת עצבית דו‑ענפית שיועדה במיוחד מפיקה תכונות משני המקורות, ענף אחד מתמקד בסידור הקווים וענף שני בדפוסי התוכן העשירים יותר. תכונות אלה מנחות מודול שיחזור שפועל לא רק במרחב התמונה אלא גם בתחום התדרים, שבו ניתן לכוונן בצורה יעילה יותר דפוסים כגון חלקות כללית וקצב הקווים. העברה סופית זו מנקה ארטיפקטים, מוסיפה חלקים חסרים של הקווים ומחליקה מעברים בין האזורים הישנים והאזורים החדש‑נוצרים כך שהתו המשוקם ישתלב באופן טבעי בדף המקורי.

עד כמה זה יעיל?
כדי לבחון את הגישה שלהם, הכותבים השתמשו ב‑DB1404, מאגר הנתונים הציבורי הגדול היחיד של תווי דונגבה, הכולל אלפי סמלים שנתפסו בסגנונות רבים. הם יצרו "נזק" דיגיטלי בחומרות משתנה, במסכת החל ממעט מהתמונה ועד למחציתה, באמצעות חורים ושריטות בלתי‑סדירים המדמים התדרדרות אמיתית. השוו את TsP לשיטות תיקון תמונה מובילות, כולל כלים קלאסיים, מערכות מודרניות מבוססות Transformer ודגמי דיפוזיה. בכל רמות הנזק, TsP הפיק תמונות שהיו משכנעות יותר חזותית וכן קרובות יותר מבחינה מבנית לתווים המקוריים, במיוחד כשאחוזים גדולים היו חסרים — בדיוק המצב הקריטי עבור כתבי יד נדירים ורכים.
מה משמעות הדבר לכתיבה עתיקה
במילים פשוטות, עבודה זו מראה שמחשבים יכולים ללמוד לא רק להשחית סדקים בתמונה אלא לכבד את הכללים ואת המשמעויות של מערכת כתיבה עתיקה בעת התהליך. על‑ידי ניחוש שלד התו הפגום, התאמתו לסמל ידוע, ושימוש בשניהם כהנחיה לצביעה עדינה, TsP שומר טוב יותר על הצורה והמשמעות המקוריות של כתב דונגבה. מעבר להישג טכני, גישה זו יכולה לסייע לאוספים, היסטוריונים וקהילות מקומיות לשחזר תכנים של כתבי יד שאחרת היו נותרים בלתי קריאים, והיא מציעה תבנית לשחזור מערכות כתיבה בסכנת הכחדה ברחבי העולם.
ציטוט: Bi, X., Shi, Q. & Chen, Z. Three-stage progressive framework for Dongba ancient texts inpainting. npj Herit. Sci. 14, 240 (2026). https://doi.org/10.1038/s40494-026-02524-5
מילות מפתח: מגילות דונגבה, שחזור כתב עתיק, תיקון תמונות, דיגיטציה של המורשת התרבותית, למידה עמוקה