Clear Sky Science · he

אימות כתבני פסי במבוק של צ’ינגהואה באמצעות רשתות סיאמיות

· חזרה לאינדקס

ספרים עתיקים פוגשים קוד מודרני

הרבה לפני נייר ומסכים, הוגים סיניים כתבו על רצועות דקיקות של במבוק. כיום כתבי־יד רגישים אלה הם מאגרי תרבות חסרי תחליף עבור היסטוריונים, אך שאלה בסיסית אחת קשה להפליא לענות עליה: אילו פסים נכתבו על ידי אותו כותב? המחקר הזה משלב ארכאולוגיה ובינה מלאכותית כדי לבנות עוזר דיגיטלי שיכול לסייע לחוקרים למיין מי כתב מה על אלפי פסי במבוק בני כ־2,300 שנים מאוסף מפורסם של אוניברסיטת צ’ינגהואה.

Figure 1
Figure 1.

מדוע כתב היד חשוב

פסי הבמבוק של צ’ינגהואה שייכים לתקופת הממלכות הלוחמות, סמוך לפני ייסוד הקיסרות הראשונה של סין. הם שומרים גרסאות מוקדמות של טקסטים בפוליטיקה, היסטוריה ופילוסופיה שעיצבו, או איבדו בחלקם, את המסורת המאוחרת יותר. כדי להבין את הכתבים באמת, חוקרים זקוקים לדעת כיצד הופרדו הפסים, אילו חלקים שייכים למנשפט מסוים וכמה כתבים פעלו עליהם. באופן מסורתי, מומחים עונים על שאלות אלה בעין: שוקלים חלקות המכה, לחץ וקווי פריסה. המלאכה הזו איטית, סובייקטיבית וקשה להתרחב ככל שנמצאים ממצאים חדשים.

הפיכת קוים לנתונים

המחברים ניסו ללמד מחשב להשוות בין תווים בכתב יד שנחתכו מתמונות ברזולוציה גבוהה של הפסים. קודם כל הם בנו אוסף תמונות גדול: 15,745 תווים בודדים מ־11 כתבים שזוהו קודם לכן, בהתבסס על מחקרים פלאוגרפיים בהסכמה. באמצעות תוכנות עיבוד תמונה מקצועיות הסירו רעשי רקע, בודדו כל תו בתוך מלבן וסיננו סימנים פגועים או חופפים. לאחר מכן הרחיבו את המחלקות הקטנות — כתבים עם רק מעט תווים ששרדו — באמצעות טריקים פשוטים כמו ההיפוך, סיבוב, חיתוך והוספת רעש, כדי שהאלגוריתם לא יהיה מוטה לסגנונות הנפוצים יותר.

רשת תאומה שמחפשת דמיון

במקום לבקש מהמחשב לתייג את כותב כל תו, הצוות הציב שאלה קלה וגמישה יותר: האם שתי התמונות האלה נכתבו על ידי אותו יד? לשם כך השתמשו ברשת נוירונים "סיאמית", זוג סניפי עיבוד תמונה זהים שמשתפים פרמטרים. כל סניף ממיר תמונת תו לטביעת אצבע נומרית קומפקטית. המערכת מודדת אז את המרחק בין שתי טביעות האצבע: מרחקים קטנים מרמזים על אותו כותב, מרחקים גדולים על כתבים שונים. בלב כל סניף עומד דגם קל משקל משודרג בשם MobileNet_V3+, משופר במנגנון תשומת לב שלומד להדגיש את התכונות הוויזואליות המכריעות — קמיעות עדינות, עובי המכה או דרכי יצירת חלקי תו מועדפות — תוך שהפחתת משקל על פרטים פחות מועילים.

Figure 2
Figure 2.

כמה טוב המערכת עובדת

בערכת הנתונים של צ’ינגהואה, הגרסה הטובה ביותר של המודל קבעה נכון האם זוגות תווים נכתבו על ידי אותו כותב בכ־90% מהמקרים, עם ציון גבוה מאוד במבחן סטנדרטי של הבחנה בשתי קטגוריות. הוא עלה על כמה מערכות זיהוי תמונה כבדות־משקל יותר, כמו ResNet, VGG ו־Vision Transformers, שנוטות או להותיר אחריהן התאמה מופרזת לנתונים המוגבלים או לפספס את הרמזים הסגנוניים העדינים הדרושים למשימה זו. בדיקות חזותיות של "מפות תשומת הלב" של הרשת הראו שככל שהאימון התקדם המודל הפנה פחות תשומת לב לצללית הכללית ובמקום זאת התרכז בקטעים מפתח במכות הכתב — בדומה למומחה אנושי.

סיוע בפתרון מחלוקות מדעיות אמיתיות

כדי לבדוק האם הכלי שימושי מעבר למעבדה, הסמיכו אותו למספר כתבי במבוק שעליהם התנהלו דיונים זה שנים לגבי מחבריהם. בשלושה טקסטים ("ג׳י גונג", "הו פו" ו־"שה מינג"), חוקרים קודמים בהדרגה נטו להאמין שהם נכתבו על ידי אותו כותב בקבוצה הרחבה יותר המכונה "יין ג׳י". המודל תמך בחוזקה בדעה זו ומצא דמיון גבוה מאוד בכל ההשוואות. בזוג מסמכים אחר, "ג׳י ג׳נג" ו־"ג׳י באנγκ", התנהלו ויכוחים האם מדובר בכותב יחיד או במספר כתבים. ההשוואות של הרשת הציעו שדפים 1–42 של "ג׳י ג׳נג" יוצרים סגנון כתיבה מובחן אחד, בעוד דף 43 של "ג׳י ג׳נג" התאמתו קרובה ל־"ג׳י באנγκ" אך לא לדפים הקודמים — ראיה לשני כתבים נפרדים שלא השתייכו לאף קטגוריה שהוגדרה קודם לכן.

מה זה אומר לגבי העבר והעתיד

באופן פשוט, עבודה זו מראה שמערכת בינה מלאכותית קומפקטית יכולה בקביעות לזהות מתי שתי חתיכות זעירות של כתב עתיק ככל הנראה נכתבו על ידי אותו אדם, אפילו כשהיא רואה רק תווים בודדים. היא לא תחליף את שיקול המומחים, אך יכולה לסרוק במהירות אוספים גדולים, לסמן התאמות צפויות ולספק תמיכה כמותית בעד או נגד מיון מסוים של פסים. מעבר לאוסף של צ’ינגהואה, ניתן להתאים גישה דומה לרשומות פגיעות אחרות — מעצמות עצם נבואיות עד גלילי דרך המשי — ובכך לסייע להיסטוריונים ולבלשנים להרכיב כיצד רעיונות נדדו במרחב ובזמן.

ציטוט: Wang, H., Li, M., Liu, B. et al. Tsinghua bamboo slip scribe verification using Siamese networks. npj Herit. Sci. 14, 147 (2026). https://doi.org/10.1038/s40494-026-02416-8

מילות מפתח: פסי במבוק, ניתוח כתב יד, למידה עמוקה, מורשת תרבותית, רשת סיאמית