Clear Sky Science · he
OBIMD: מאגר מולטי-מודלי לפרשנות הקונטקסטואלית של כתובות עצמות היורה
לפתוח מסרים מעצמות עתיקות
לפני למעלה משלושת אלפי שנים חרטו חיזאים מלכותיים בסין שאלות לרוחות על עצמות בעלי חיים ושריונות צב, ואז חיממו אותן עד שהן סדקו. עצמות היורה שומרות חלק מכתובות הכתיבה המלאה המוקדמות ביותר בעולם, אך היום הן שריד שביר המפוזר במוזיאונים ובספרים. מחקר זה מציג את OBIMD, אוסף דיגיטלי חדש שמאגד תמונות וקריאות מומחים של הכתובות הללו, ומעניק להיסטוריונים ולמחשבים יחד כלי רב-עוצמה ללמוד כיצד פעלה הכתב העתיק ומה הוא חושף על החברה הסינית הקדומה.

למה עצמות ישנות קשות לקריאה
עצמות היורה אינן דפי טקסט מסודרים. הן מצולקות, נשרפו, ולעתים קרובות שבורות לחתיכות, כשהכתיבה מתעקלת סביב המשטח העקום בכיוונים מבלבלים. חוקרים מעטים מטפלים במקור עצמו. במקום זאת הם מסתמכים על שלושה סוגי תחליפים: חשיפות דיו כהות שנלקחות ממשטח העצם, העתקות מצויירות ביד שמבהירות את המהלכים, וטרנסקריפציות מודפסות המראות כיצד מומחים סבורים שהטקסט צריך להיקרא. עד כה רוב האוספים הדיגיטליים התייחסו לתווי בודדים שנחתכו מחשיפות כאל תמונות מבודדות. זה שימושי לאימון מחשבים לזהות צורות, אבל מתעלם מהקונטקסט הרחב שבו משתמשים מומחים אנושיים כדי לפענח תווים מעורפלים או פגומים.
מפה דיגיטלית עשירה של כל עצם מוכתב
OBIMD משנה את התמונה בכך שהוא מתייחס לכל עצם כעולם קטן ומובנה בפני עצמו. עבור למעלה מעשרת אלפים כתובות, המחברים מספקים חשיפה תואמת והעתק מצויר, ואז מסמנים את מיקומו של כל תו קריא בתוך מסגרת חוסמת. הם גם מתעדים מקומות שבהם תו חסר בבירור משום שהעצם נשברה, וממקמים תיבות ריקות מיוחדות כמחסניות. תווים ופערים אלה מקובצים למשפטים או יחידות פונקציונליות אחרות, וסדר הקריאה—שלעיתים מעגלי ולא ליניארי—נרשם בגלוי בנתונים. כתוצאה מכך, המאגר לא רק מציין אילו צורות מופיעות על העצם, אלא גם כיצד הן יוצרות שורות טקסט, באיזה רצף הן מופיעות, והיכן הטקסט אבדה.

שילוב מומחיות אנושית ועזרת מכונה
לבנות מפה מפורטת כזו לאלפי כתובות מורכבות יהיה בלתי אפשרי בעבודת יד בלבד. הצוות תיכנן פלטפורמה מבוססת־ווב שמאפשרת לאנשים ברמות הדרכה שונות לעבוד ביחד ביעילות. ראשית, כלי ראייה ממוחשבת סורקים את תמונות החשיפה וההעתק המצויר כדי להציע היכן עשויים להיות תווים ואילו כניסות בספריית תווים מומחית הם מזכירים. לאחר מכן מסדרים מצביעים לא-מומחים הצעות אלה על ידי השוואת התמונות ויעוץ בעמודים סרוקים של טרנסקריפציות מומחים. סטודנטים לתואר שני בעלי הכשרה בלימודי עצמות היורה בוחנים את עבודתם, ומומחים מורגלים פותרים המקרים הקשים, כגון תווים שניזוקו קשה או קריאות שנוי במחלוקת. גישה שכבתית זו שומרת על איכות גבוהה בעוד היא הופכת את משימת הסימון הענקית לניתנת לניהול.
להדריך מחשבים לקרוא כתיבה עתיקה
כדי לראות מה OBIMD מאפשר, המחברים השתמשו בו לאימון ובדיקה של מודלים מודרניים בלמידת מכונה על מספר משימות שהושפעו מאופן קריאת העצמות על ידי מומחים אנושיים. מודל אחד למד לאתר ולזהות תווים ישירות על התמונות המלאות, לא רק על חתכים מוכנים מראש, והצליח יותר על העתקי ההעתקות הנקיים יותר והתעורר לקשיים בעיקר עם וריאנטים עדינים בחשיפות רעשניות. מודל אחר למד לקבץ תווים למשפטים על בסיס מיקומם וצורתם, והצליח ברוב המקרים אך עדיין ערבב גבולות כאשר שורות טקסט חפפו זו את זו. מודל שלישי אומן לשחזר את סדר הקריאה המקורי של תווים מבולגנים בתוך משפט, וניחש נכון את הסדר המדויק ברוב המקרים והתקרב ברבים אחרים. יחד, המבחנים הללו מראים ש־OBIMD יכול להניע התקדמות ובמקביל לחשוף את האתגרים שנותרו בקריאה אוטומטית של כתבים עתיקים.
מה המשמעות של זה לתמונה שלנו של העבר
ללא-מומחים, המסר המרכזי הוא כי OBIMD הופך עקבות מפוזרות ושבריריות של הכתיבה הסינית המוקדמת למשאב קוהרנטי וניתן לקריאה על-ידי מחשב. על ידי יישור תמונות, שרטוטי מומחים וקריאות ברמת המשפט, ועל ידי סימון קפדני של מה חסר ומה שרד, המאגר משקף את האופן שבו חוקרים אנושיים אכן מרכיבים משמעות מחפצים פגומים. הוא פותח דלת למחקר בקנה־מידה גדול על שינויי שפה, פרקטיקות כתבניות וחיי החצר המלכותית בתקופת שהנג, ומציע מגרש מבחן תובעני למערכות בינה מלאכותית ששואפות לקרוא את העבר. בקיצור, OBIMD איננו תרגום של עצמות היורה, אך הוא המפה המפורטת שלהיסטוריונים ואלגוריתמים עתידיים ישתמשו בה כדי לחקור אותן.
ציטוט: Li, B., Yang, J., Liang, Y. et al. OBIMD: A Multi-modal Dataset for Contextual Interpretation of Oracle Bone Inscriptions. Sci Data 13, 681 (2026). https://doi.org/10.1038/s41597-026-06967-0
מילות מפתח: כתובות עצמות היורה, כתיבה עתיקה, מדעי הרוח הדיגיטליים, מאגר מולטי-מודלי, זיהוי טקסט בבינה מלאכותית