Clear Sky Science · he

מאגר תקני להפרדת שורות טקסט במסמכי עלה דקל

· חזרה לאינדקס

שימור סיפורים הכתובים על עלים

כתבי יד על עלי דקל הם בין התיעודים הוותיקים ששרדו על חיי היום‑יום, מדע, דת ואמנות בדרום ובדרום‑מזרח אסיה. עלים רבים ושבריריים אלה מדרדרים היום: דהייה, סדקים ובלאי שנגרם על‑ידי הזמן מאיימים להעלים מאות שנים של ידע. מאמר זה מציג את LeafOCR-Line, מאגר דיגיטלי שנבנה בקפידה כדי לסייע למחשבים לקרוא שורות כתיבה על עלי דקל פגועים בצורה מדויקת יותר, ובכך להאיץ את המאמץ לשמר ולשתף את המורשת הרגישה הזאת עם העולם.

Figure 1
Figure 1.

מדוע עלים עתיקים קשים לקריאה

קריאת כתב על עלה דקל אינה פשוטה כמו סריקת עמוד מודפס מודרני. הכתיבה לעתים קרובות מוטה, דחוסה במרחבים צרים או מופרעת על‑ידי חורי ניקוב ששימשו באופן מסורתי לקשירת העלים. הזמן מוסיף כתמים, עובש, קרעים ודעיכת דיו. חלק מהסימנים האלה דומים באופן מטעה לאותיות, בעוד שחלקים מהאותיות האמיתיות עלולים להיות חסרים או כמעט בלתי נראים. בשפות כמו מלאיאלאם, הנמצאות בשימוש ברבים מהטקסטים האלה, האותיות מורכבות מלולאות וסימנים מוערמים שיכולים לחפוף משורה לשורה. למערכת ראייה ממוחשבת שמנסה לאתר כל שורת כתיבה, הפריסה המבוייפת והחופפת הזו היא אתגר מיוחד.

מעלים פיזיים למאגר תקני דיגיטלי

המחברים כיוונו ליצור מאגר תקני גדול וריאליסטי המתמקד בצעד מרכזי בשרשרת הדיגיטציה: הפרדת כל שורת טקסט מהרקע ומהשורות השכנות. הם אספו 20 חבילות של כתבי יד על עלי דקל במלאיאלאם מאוסף מקוון ציבורי, הכוללות יצירות שכתובות משנת 1000 לערך ועד המאה ה‑18. לאחר שהוציאו כמעט 3,000 תמונות עמודים וקיצצו אוטומטית רקעים כהים, עבדו רק עם אזורי העלה. כל עלה מגודל שונה במידה ניכרת, מכיל שלוש עד שתים‑עשר שורות טקסט, ועלול לכלול חור ניקוב אחד או שניים, ריווח לא סדיר וסגנונות כתב מגוונים המשקפים מחברים וזמנים שונים.

מיון הנזקים ועיבוד כל שורה

מכיוון שרמות נזק שונות דורשות אסטרטגיות עיבוד שונות, לכל תמונה הוקצה אחד משלושה רמות איכות: פחות מדרדר, מדרדר ממוצע או מדרדר מאוד. דירוג זה נשען על שיטת הערכה אובייקטיבית קיימת המנתחת בהירות חזותית, ניגודיות ומצב פיזי. החדשנות העיקרית של LeafOCR-Line טמונה באופן שבו מסומנות שורות הכתיבה. במקום לצייר מלבנים פשוטים, שלעיתים חותכים אותיות המשתרעות מעלה או מטה, הצוות השתמש בקווי מתאר פוליגונליים גמישים שעוקבים מקרוב אחרי הצורה המעוקלת האמיתית של כל שורה.

Figure 2
Figure 2.
סטודנטים לתארים מתקדמים ציירו ידנית את הצורות האלה באמצעות כלי אנוטציה בסיוע עוזר מבוסס בינה מלאכותית ולאחר מכן שיפרו אותן נקודה‑נקודה כך שלולאות, עקומות, חפיפות ומחיקות קלושות יטופלו בקפידה. מומחים דוברי מלאיאלאם בדקו את התוצאות; כל מסכה לא מדויקת או לא מיושרת הוחזרה לתיקון.

תכולת המאגר

בסך הכל LeafOCR-Line מספק 1,710 תמונות עלי דקל, כשכל אחת מזווגת עם תמונת מסכה מתאימה שמדגישה את שורות הטקסט שלה. האוסף מחולק לתת‑קבוצות לאימון, ולידציה ובדיקה עם חלוקה דומה של שלוש רמות האיכות: כמחצית מהתמונות במצב מדרדר ממוצע, בעוד שהיתר מחולקים בערך שווה בין מצב טוב יותר ומצב גרוע יותר. מתוך 1,710 העלים האלה, החוקרים יכולים לחלץ יותר מ‑10,000 תמונות שורה יחידות. קבצים נוספים מסכמים, לכל תמונה, את רמת הנזק ואת כתב היד המקורי, כולל קישורים חזרה למאגר המקוון המקורי. מבנה זה מקל על השוואת שיטות בצורה הוגנת ועל תכנון מערכות שמתאימות למידת הנזק המשתנה.

כמה טוב האלגוריתמים של היום מתמודדים

כדי להראות שהמאגר גם מאתגר וגם שימושי, המחברים אימנו ובחנו מגוון רחב של מודלים מודרניים לחלוקת תמונה, החל מרשתות מקודד‑מפענח קלאסיות ועד עיצובים חדשים מבוססי טרנספורמר. הם מדדו עד כמה אזורי השורה שחזה כל מודל התאמו למסכות שנעשו בידי אדם. כל המודלים הצליחו להפריד שורות באופן סביר, אך גישה אחת, שנקראת DeepLabV3, בלטה. היא הייתה יעילה במיוחד בלכידת שורות דקות ומעוגלות ושמירה על רציפות גם בעלים שניזוקו קשה, אם כי טעויות קטנות נותרו כאשר שורות היו צמודות מאוד זו לזו. מודלים פופולריים אחרים כמו U‑Net ו‑LinkNet גם הראו ביצועים חזקים אך במידה קלה פחות עקבית במקרים הגרועים ביותר, בעוד שחלק מהרשתות מבוססות הטרנספורמר וסגנונות פירמידה התקשו בפרטים הדקים.

מכתב אחד לרבים — ולמה זה חשוב

למרות ש‑LeafOCR-Line מכיל רק את כתב המלאיאלאם, צורת האותיות והפריסה שלהן מזכירות את אלו של כתבים שכנים כמו טמיל, טיגלארי וגרנטה. המחברים הראו שמודל שאומן על המאגר שלהם יכול גם להפריד שורות מכתבים קשורים אלה, מה שמרמז שהנתונים עשויים לתמוך במאמצי דיגיטציה רחבים יותר במספר שפות. עבור לא‑מומחים, המסר המרכזי פשוט: LeafOCR-Line מציע בסיס ציבורי חזק לבניית ובדיקת אלגוריתמים היכולים "לראות" שורות טקסט על עלי דקל פגומים. הדבר מסייע לארכיונאים, ספרניות וקהילות להפוך רצועות צמח שבריריות ודועכות לארכיונים דיגיטליים ניתנים לחיפוש ולשיתוף, ובכך לשמור את הזיכרון התרבותי חי לדורות הבאים.

ציטוט: Sivan, R., Pati, P.B. A benchmark dataset for text line segmentation in palm leaf documents. Sci Data 13, 424 (2026). https://doi.org/10.1038/s41597-026-06718-1

מילות מפתח: כתבי יד על עלי דקל, הפרדת שורות טקסט, דיגיטציה של מסמכים, כתב מלאיאלאם, שמירה על המורשת