Clear Sky Science · he
TamilSTARNet: סגמנטציה באמצעות ארכיטקטורת שלושה שלבים וזיהוי מבוסס תשומת-לב לדמויות כתובות ביד בתמילית
להכניס כתבים עתיקים בתמיל לקדמת הדיגיטל
בכל דרום הודו ומעבר לה, סיפורים, שירים ורשומות יקרות הכתובים בתמיל יושבים נעולים בתוך נייר דוהה, עלים של דקל ויומנים. מאחר שרבים מחומרים אלה כתובים ביד, למחשבים קשה לקרוא אותם, ולכן חלקים גדולים מהתרבות הטמילית נשארים קשים לחיפוש, שיתוף או מחקר. המאמר הזה מציג את TamilSTARNet, מערכת ראייה ממוחשבת חדשה המיועדת במיוחד לקריאת כתבי יד בתמיל, כדי ששנים של מורשת יוכלו להיחשב ולהינצל בצורה דיגיטלית.

מדוע כתב יד בתמיל קשה למחשבים
כתב התמל עשיר ובעל הבעה: קבוצה קטנה של תנועות ועיצורים בסיסיים משתלבים ליותר מ-300 תווים מורכבים. על הדף האותיות זורמות יחד עם לולאות, קימורים וסימנים קטנים מעל, מתחת וליד המכות הראשיות. אנשים כותבים אותן בסגנונות אישיים רבים, עם מכות המחוברות זו לזו, חופפות או משתנות בעובי. כלי זיהוי תווים אופטי (OCR) סטנדרטיים, שעובדים היטב על טקסט מודפס באנגלית, נכשלים לעתים כאן. הם קוראים בצורה שגויה אותיות מחוברות, מאבדים סימנים זעירים שמשנים משמעות, ומתבלבלים כשהדיו דהוי או המרווחים אינם סדירים. מחקרים קיימים בתמיל עשו התקדמות באמצעות חוקים מעוצבים ידנית או רשתות עצביות כלליות, אך רוב השיטות מניחות תווים נקיים מופרדים אחד-אחד, או נכשלים כאשר תווים נוגעים ומצטופפים יחד.
דרך בשלושה שלבים לפיצול הדף
כדי להתמודד עם הבעיה, המחברים תחילה מעצבים מחדש את אופן חלוקת הדף לפני כל שלב של זיהוי. צינור הסגמנטציה בעל שלושת השלבים שלהם מתייחס למסמך כתוב ביד כחידה רב-שכבתית. בשלב הראשון הדף מתנקה ומוחדר חידוד באמצעות פעולות עיבוד תמונה סטנדרטיות, ואז מחולק לשורות טקסט אופקיות. בשלב השני כל שורה נשברת למילים נפרדות, כאשר הכוונה היא להתאים בקפידה עד כמה מכות שכנות מוזגו, כך שסימני תנועה זעירים לא יאבדו. בשלב השלישי כל מילה מפורקת עוד יותר לתווים בודדים באמצעות קווי מתאר ותיבות חוצות המותאמות למכות הדיו בפועל. התוצאה היא מערך תלת־ממדי מובנה — שורה, מילה, תו — שמשמר את סדר הקריאה ומספק תווים מבודדים וברורים למנוע הזיהוי.

דרך חכמה יותר שגורמת למחשב לשים לב
לאחר שהתוים מסומנטים, TamilSTARNet משתמשת במודל למידה עמוקה מותאם כדי לקבוע מהו כל תו. בלבו מצבור שכבות קונבולושן שלומדות דפוסים חזותיים מהתמונות. מעל לכך, המחברים מוסיפים כמה סוגים של מנגנוני "תשומת-לב". מודולים אלה מסייעים לרשת להחליט אילו חלקים של התמונה ואילו תכונות פנימיות חשובים ביותר. רכיב אחד מדגיש ערוצים ספציפיים הלוכדים הבדלים עדינים במכות — בדיוק אותם ווים ולולאות קטנים שמבדילים בין אותיות תמיל דומות. רכיב אחר מתמקד במיקום שבו נמצאות המכות החשובות על משטח התו. שכבת תשומת-לב עצמית משולשת מסתכלת על כל התו בבת אחת וקושרת מכות מרוחקות שמגדירות יחד את צורתו. בשילוב צורות תשומת-לב אלה המערכת משתכללת בהבחנה בין תווים השונים רק בסימן או בקימור זעיר.
כמה המערכת מדויקת
החוקרים בדקו את TamilSTARNet על שני מאגרים ציבוריים גדולים המכילים יחד יותר מ-160,000 דוגמאות המשתרעות על פני 156 שכבות תווים ממאות כותבים. לאחר אימון, המודל זיהה נכון כ-96% מהתווים במבחן, והצטיין על פני אלטרנטיבות ידועות כגון Tesseract OCR וכמה בסיסי רשת עצבית עמוקה. הסגמנטציה בשלושה שלבים הוכחה גם היא כחשובה: כאשר אותו מודל זיהוי שימש ללא חלוקה מדוקדקת של שורה–מילה–תו, הדיוק והאמינות ירדו. הצוות העריך גם את השיטה על כתבי יד על עלי דקל מאתגרי־מצב, בהם הדיו דהוי והמשטחים בלתי סדירים. בבדיקה הקשה הזו הביצועים היו כמובן נמוכים יותר, אך עדיין חזקים מספיק כדי להראות שהשיטה ניתנת להרחבה לחומרים היסטוריים אמיתיים.
מה זה אומר לשימור המורשת התמילית
במילים פשוטות, TamilSTARNet נותנת למחשבים דרך זהירה יותר להביט בכתב יד בתמיל: קודם היא מארגנת את הדף המעורפל לחתיכות מופרדות היטב, ואז בוחנת כל תו עם תשומת-לב ממוקדת למכות החשובות. שילוב זה מאפשר למערכת לקרוא כתב יד מורכב בצורה אמינה הרבה יותר מאשר כלים קודמים. אמנם יש עדיין מקרים קשים — כגון כתיבה מעוצבת במיוחד או דפים שניזוקו קשות — הגישה מהווה צעד מעשי לעבר דיגיטציה בקנה מידה גדול של טקסטים בתמיל. ככל שמערכות כאלה ישתפרו ותתפשטנה, יומנים ישנים, מכתבים ומסמכים יכולים להפוך לספריות דיגיטליות ניתנות לחיפוש, ולסייע להבטיח שמורשת הספרותית של התמיל אינה רק מושרת משחיקה פיזית אלא גם נגישה לדורות הבאים.
ציטוט: Anbalagan, S., Krishna, H., Raju, J.S. et al. TamilSTARNet: segmentation via tri-phase architecture and attention-based recognition for handwritten Tamil characters. npj Herit. Sci. 14, 258 (2026). https://doi.org/10.1038/s40494-026-02335-8
מילות מפתח: OCR ידנית בתמילית, דיגיטציה של מסמכים, רשתות עצביות מבוססות תשומת-לב, שימור מורשת תרבותית, זיהוי כתב