Clear Sky Science · he

עיבוד מידע של כתובות עצמות מכשפה: סקר מקיף

· חזרה לאינדקס

עצמות עתיקות, שאלות מודרניות

לפני יותר מ-3,000 שנה חזו סריגים בסין על־ידי חריטת שאלות למושלים על קונכיות צב ועצמות שו, ואז שבירתן בחימום כדי לפרש אותות. כתובות העצמות האלה הן הכתב הסיני המוכר הקדום ביותר וחלון נדיר אל הפוליטיקה, הדת והחיים היומיומיים של עידן הברונז. כיום, עם זאת, העצמות שבורות badly, הכתב קשה לקריאה, ורבים מהתוים נותרו בלתי מפוענחים. מאמר זה מסביר כיצד גליים חדשים של בינה מלאכותית משנים את הדרך שבה חוקרים מנקים, משחזרים, קוראים ומפרשים את השרידים העדינים הללו מהעבר, ואילו אתגרים עוד עומדים בדרכם.

Figure 1
Figure 1.

מהיד והעין לסיליקון וקוד

ברוב המאה האחרת, כתובות העצמות נראו ונחקרו רק על־ידי מעגל קטן של מומחים שבאדיקות בחנו שפכי דיו, שירטוטים וצילומים. הם ריכזו קטלוגים מודפסים ענקיים, הציעו קריאות לתווים בודדים והתווכחו על דיווחי תאריכים וקיבוץ הכתובות. עבודה זו הניחה את היסודות לשדה אך הייתה איטית, קשה לשכפול ותלויה במידה רבה בזיכרון ובהכרעה האישית של כל חוקר. עם הגעת המחשבים התחילו החוקרים לדיגיטציה של שפכי דיו וליישם טריקים בסיסיים לעיבוד תמונה כמו הגברת ניגודיות וזיהוי קצוות. הכלים המוקדמים הללו הקלו על ראיית העצמות ושיתוף המידע, אך התייחסו לתווים כאל צורות בלבד, לא ככתב מושגי.

למידה עמוקה נכנסת לארכיונים

עליית הלמידה העמוקה שינתה את הנוף. רשתות עצביות קונבולוציוניות וממירים, שאומנו תחילה על צילומים יומיומיים, הותאמו כדי לזהות תווים על שפכים רועשים, למיין אותם לקטגוריות ואף לעזור בהתאמת קטעים שבורים ששייכו בעבר לאותה עצם. כדי להזין מודלים רעבים־נתונים אלה, צוותים הקימו כמה עשרות מערכי נתונים מיוחדים: חלקם התמקדו בזיהוי כל תו בשפשך, אחרים בסיווג גליפים חתוכים, בקישור רדיקלים ורכיבים, או בזיווג צורות עתיקות עם כתב מאוחר יותר. עם זאת הנתונים משקפים מציאות היסטורית: כמה תווים נפוצים מופיעים אלפי פעמים, בעוד שרבים מהסמלים הנדירים או הבלתי מפוענחים מופיעים רק פעם אחת. החוקרים מגיבים בכך שמפתחים חידושי הגברה של נתונים, מודלים גנרטיביים שמייצרים דוגמאות חדשות, ותכניות אימון המיועדות לזהות תווים מתוך מעט דוגמאות — או אפילו ללא דוגמאות מוכרות כלל.

להכשיר מכונות לגשר בין ראייה למשמעות

בשלב האחרון, מודלים מולטימודאליים גדולים שמשלבים ראייה ושפה מותאמים לעבודה עם כתובות עצמות. במקום רק לאתר היכן נמצאים התווים, מערכות אלה מנסות לקשר בין המראה של גליף לבין מה שהוא עשוי להצביע עליו — בדומה למה שעושה פלבולוג אנושי. מבחנים חדשים בוחנים האם מודלים כאלה יכולים לזהות תווים, לחבר קטעים, לאחזר כתובות דומות ולהציע קריאות סבירות. מסגרות מסוימות מנסות למפות תווים עתיקים ישירות לאותיות סיניות מודרניות, תוך מעקב אחרי ההתפתחות הוויזואלית במשך מאות שנים; אחרות מקשרות סמלים ציוריים לתמונות של חפצים מן המציאות; ועמם יש מסגרות שמנסות הסברים טקסטואליים מלאים למה שנאמר בשורת חיזוי. מערכות בסגנון סוכנים הולכות רחוק יותר על ידי תיאום כלים ומאגרי מידע מרובים, ועוזרות למשתמשים לחפש בין תמונות, תמלילים והערות מחקריות בתוך זר עבודה אחד.

Figure 2
Figure 2.

נתונים, הערכה וחידת ההיסטוריה השבורה

למרות ההתקדמות המהירה, הסקר מדגיש מכשולים עקשניים. רבות מהאוספים הטובים ביותר של תמונות וסריקות תלת־ממדיות נמצאים במוזיאונים או בארכיונים פרטיים ואינם זמינים בקוד פתוח, מה שמקשה להשוות שיטות בצורה הוגנת או לאמן מודלים כלליים באמת. גם מערכי נתונים ציבוריים לעתים קרובות סובלים מהפצות קטגוריות ארוכות‑זנב, תוויות לא עקביות או איכות תמונה נמוכה. מדדי ביצוע סטנדרטיים שאולדו מזיהוי עצמים או זיהוי כתב יד עשויים שלא ללכוד את מה שבאמת חשוב להיסטוריונים — למשל, האם מודל מבלבל שתי וריאנטים מקובלים של אותו תו, או האם הקריאה המוצעת שלו מכבדת את איך שהתו בנוי מרכיבים קטנים יותר. הערכה אנושית מפוצלת באותה מידה: מחקרים שונים שוכרים מומחים שונים, שואלים שאלות שונות ולעיתים רחוקות מדווחים בפירוט מספק כדי שאחרים יוכלו לשחזר את המבחנים שלהם.

שם הכתב העתיק פוגש את בינה המלאכותית של העתיד

להתקדמות יש לכיוון, הכותבים קוראים למערכי נתונים עשירים וממוסמכים יותר; שיטות הערכה שמתגמלות הבנה מבנית וסמנטית, לא רק התאמות ברמת הפיקסל; ושיתוף פעולה קרוב יותר בין טכנולוגים ומומחים בכתב הסיני הקדום. הם מדמיינים גנרטורים מטקסט לתמונה שיכולים להפיק תווים בסגנון הכתובות מתיאורים, מודלי יסוד המותאמים במיוחד לכתבים עתיקים, מערכות רב־סוכנים שמתווכחות ומשכללות קריאות מתחרות ואפילו שחזורים תלת־ממדיים שמשחזרים את הצורה המקורית של עצמות שבורות. בפשטות, מסקנת המאמר היא שבינה מלאכותית לא ‘‘תפתור’’ את כתובות העצמות לבדה, אך היא יכולה להפוך לשותפה עוצמתית — להעצים תובנות מומחים, להנגיש ארכיונים עצומים לחיפוש ולפתוח קולות מעידן הברונז לציבור רחב בהרבה.

ציטוט: Chen, Z., Hua, W., Li, J. et al. Oracle bone inscriptions information processing: a comprehensive survey. npj Herit. Sci. 14, 220 (2026). https://doi.org/10.1038/s40494-026-02511-w

מילות מפתח: כתובות עצמות מכשפה, כתב סיני עתיק, מדעי הרוח הדיגיטליים, בינה מלאכותית, מודלים מולטימודאליים