Clear Sky Science · he

רשת עצבית עמוקה מסוג Inception עם חיבורים שאריתיים לזיהוי כתב יד תמילי

· חזרה לאינדקס

שמירת כתב היד בעידן הדיגיטלי

ממנשרים על עלי דקל עתיקים ועד פתקיות יום-יומיות, חלק גדול מהמורשת הכתובה של השפה התמילית עדיין קיים על נייר. המרת מערך זה של דפי כתב יד לטקסט דיגיטלי ניתן-חיפוש היא מהותית לשימור התרבות, לתמיכה בחינוך ולבניית טכנולוגיות שפה טובות יותר. מאמר זה מציג מערכת ראייה ממוחשבת חדשה, בשם TamHNet, שקוראת כתב יד תמילי עם דיוק שמגיע כמעט לשלמות, גם כאשר אותיות נראות דומות זו לזו בצורה מטעה.

Figure 1
Figure 1.

מדוע אותיות תמיליות קשות למחשבים

התמילית מדוברת על ידי יותר מ-80 מיליון אנשים ומשתמשת בכתב שמכיל 247 תווים, כולל תנועות, עיצורים ושילובים רבים ביניהם. אותיות רבות שונות זו מזו רק בעיקולים זעירים או במקפים נוספים, וכותבים שונים מציירים כל תו באופן משתנה. זוגות כמו எ/ஏ או ஒ/ஓ עשויים להיראות כמעט זהים במבט מהיר, ותווים כמו ல ו-வ יכולים בקלות להתבלבל זה עם זה. תוכניות מחשב מוקדמות ואף מערכות למידה מכונה מודרניות לעתים התקשו עם דקויות אלה, מה שהוביל לקריאה שגויה של מילים ולאי-דיוק בדיגיטציה של מסמכים.

בניית מאגר נתונים של כתב יד בתנאים מציאותיים

כדי לאמן ולבדוק את המערכת בתנאי אמת, החוקרים יצרו מאגר תווים מבודדים תמילי חדש באמצעות דגימות כתב יד מאת 1,000 סטודנטים אוניברסיטאיים. במקום להסתמך על תמונות סינתטיות או גנרטור ממוחשב, הם אספו תווים אמיתיים בעט על נייר המכסים 12 תנועות, 18 עיצורים ו-214 שילובים נפוצים. הצוות תייג את הדגימות בקפידה והפך את מאגר הנתונים לנגיש לציבור כדי שאחרים יוכלו להשוות שיטות ולבנות על המאמץ הזה. על ידי ארגון הכתב ל-104 סמלים בסיסיים שמקיפים את כל 247 התווים, הם הפחיתו חזרתיות ועדיין ייצגו את טווח הצורות שמופיע בכתב יד אמיתי.

ניקוי, עיוות מבוקר ולימוד התמונה

לפני תחילת הלמידה, כל תמונה סרוקה עוברת ניקוי להסרת רקעים רעשיים, כתמים ותאורה לא אחידה תוך שמירה על המיתרים העדינים שמגדירים כל אות. התמונות מומרות לשחור-לבן חדים ומשנות גודל לפורמט סטנדרטי כדי שהמחשב יראה כל דוגמה באותה צורה. כדי להפוך את המערכת לעמידה להרגלי כתיבה שונים, המחברים משתמשים בעיוותים מבוקרים: הם מזיזים קלות נקודות מפתח בתמונה ומיישמים עיוות חלק, ויוצרים גרסאות חדשות של כל תו שעדיין נראות לאדם כאותה אות. סט האימון המורחב הזה עוזר למודל לזהות תווים גם כשהם מוטים, דחוסים או נכתבים בפרופורציות בלתי שגרתיות.

Figure 2
Figure 2.

רשת עמוקה שלומדת הבדלים עדינים

בלב TamHNet נמצאת ארכיטקטורת למידה עמוקה עוצמתית בשם Inception-ResNet-v2, שתוכננה במקור לזיהוי עצמים כללי. המחברים מסתגלים ומשפרים את הרשת במיוחד עבור כתב היד התמילי. המודל מעבד כל תמונה דרך שכבות רבות שמדרגתית ממירות פיקסלים גולמיים לתבניות ברמה גבוהה יותר, כגון קצוות, עקומות וחלקי אותיות. קיצורי דרך מיוחדים, הידועים כקשרים שאריתיים, מייצבים את האימון ועוזרים לרשת להתמקד בהבדלים קטנים אך מכריעים בין אותיות דומות. במקום לכוונן את כל ההגדרות הפנימיות בבת אחת, הצוות "מפשטר" באופן סלקטיבי את השכבות השימושיות ביותר ומכייל אותן למשימה זו. הם משתמשים בשיטת אופטימיזציה הנקראת Adam, שמסדירה באופן אוטומטי את קצב השינוי של כל פרמטר, מה שמאפשר לרשת ללמוד ביעילות מכתב יד מורכב ולעתים לא מצוחצח.

כמה טוב המערכת קוראת כתב יד

החוקרים מעריכים את TamHNet על מאגר הנתונים החדש באמצעות מדדי איכות זיהוי סטנדרטיים. המערכת משיגה דיוק של כ-99.8% על פני 104 כיתות תווים, ועוקפת מגוון שיטות קודמות המבוססות על מכונות וקטורי תמיכה, רשתות קונבולוציה מסורתיות ועיצובים מתקדמים אחרים של למידה עמוקה. בדיקות מפורטות מראות שגם אותיות בעלות צורות מאוד דומות מופרדות נכון ברוב המקרים, ועקומות סטטיסטיות מאשרות שהמודל כמעט ולא מבלבל תו עם תו אחר. בהשוואה לעבודה קודמת, זהו קפיצה ברורה קדימה באמינות לזיהוי כתב יד תמילי.

מה המשמעות לקוראים ולארכיונים

עבור מי שאינו מומחה, המסקנה המרכזית היא שמחשבים משתפרים במידה דרמטית בקריאת כתב יד תמילי. מערכת כמו TamHNet יכולה להניע כלים שהופכים ערמות מחברות, כתבי יד היסטוריים וטפסים בכתב יד לטקסט דיגיטלי ניתן-חיפוש עם תיקון אנושי מינימלי. בעוד שהמודל הנוכחי עדיין אינו מטפל בסמלים מבוססי נקודות מסוימים ובווריאנטים עתיקים של הכתב, המחברים מפרטים תוכניות להרחבתו לסגנונות כתיבה קדומים גם כן. במונחים מעשיים, מחקר זה מקרב אותנו לדיגיטציה רחבת היקף ומדויקת של מסמכים תמיליים, מסייע בשמירת המורשת התרבותית והופך ידע כתוב לנגיש יותר לדורות הבאים.

ציטוט: Periyasamy, H., Natarajan, S. & Amirtharajan, R. Deep inception neural network with residual connections for Tamil handwritten character recognition. Sci Rep 16, 6053 (2026). https://doi.org/10.1038/s41598-026-36330-7

מילות מפתח: זיהוי כתב יד תמילי, זיהוי תווים אופטי, למידה עמוקה, Inception-ResNet, שימור דיגיטלי