Clear Sky Science · he

ResNet18-ThunderSVM: אינטליגנציה היברידית לזיהוי ספרות בכתב יד על ידי מיזוג תכונות מרחביות עמוקות וסיווג בעל ביצועים גבוהים

· חזרה לאינדקס

מדוע ללמד מחשבים לקרוא כתב יד חשוב

כל פעם שבנק מעבד מסמך, מורה מדרג מבחן סרוק או הטלפון שלך הופך כתמים לכתוב דיגיטלי, מערכת מאחורי הקלעים צריכה לקרוא נכון כתב יד אנושי בלתי מסודר. לגרום למכונות לעשות זאת במהירות ובדיוק חוסך זמן, מקטין עלויות ומפחית שגיאות אנושיות. מאמר זה מציג שיטה חדשה לזיהוי ספרות בכתב יד שמטרתה להיות גם מדויקת ביותר וגם מהירה דיו לשימוש בעולם האמיתי, אפילו על מכשירים עם משאבי חישוב מוגבלים.

Figure 1
Figure 1.

שילוב שתי עוצמות למערכת חכמה אחת

החוקרים משלבים שני סוגים שונים של בינה מלאכותית בתוך מודל "היברידי" שהם מכנים ResNet18-ThunderSVM. החלק הראשון, ResNet18, הוא רשת עצבית עמוקה שמצטיינת בגילוי אוטומטי של דפוסים בתמונות — כמו מכות, קווים וצורות בספרות בכתב יד. החלק השני, ThunderSVM, הוא גרסה מהירה המואצת על ידי GPU של שיטת למידת מכונה קלאסית הידועה בהחלטות חזקות ויציבות ברגע שיש תכונות טובות. בכך ש־ResNet18 מטפל בעבודת הכוח של גילוי התכונות ואז מעביר את המידע המדולל אל ThunderSVM להחלטה הסופית, המערכת שואפת לשלב את היתרונות של שניהם: הבנה עשירה של תמונות וסיווג יעיל ומהימן.

מפיקסלים גולמיים להחלטות בטוחות

הספרות בכתב היד במחקר זה נאספות מארבעה אוספי תמונות פופולריים: MNIST, EMNIST, USPS ו־Fashion-MNIST. מערכי נתונים אלה כוללים ספרות פשוטות, אותיות, כתיבה בסגנון דואר ותמונות קטנות של פריטי לבוש, ומייצגים טווח של רמת קושי. כל התמונות מומרות לגודל אחיד ומנורמלות כך שהבהירות שלהן תתפרש בטווח יציב, מה שעוזר לרשת ללמוד בצורה חלקה יותר. ResNet18, שמותאם עדין במקום להישאר מקובע, הופך בהדרגה כל תמונה דו־ממדית לטביעת אצבע קומפקטית של 512 מספרים הלוכדת את הפרטים הוויזואליים החשובים ביותר. טביעת האצבע הזו מותאמת בעדינות כדי לשמור על ערכים מסודרים ומוזנת ל־ThunderSVM, אשר לומד להפריד בין ספרות שונות באמצעות כללים מתמטיים יעילים הנקראים גרעינים (kernels).

איך הגישה החדשה עומדת במבחן

המחברים משווים את המודל ההיברידי שלהם הן לשיטות מסורתיות והן למערכות למידה עמוקה רבות על מאגר הנתונים המוכר MNIST. גישות ישנות יותר כמו עצי החלטה, יערות אקראיים ו־SVM בסיסי עובדות די טוב על בעיות קטנות אך מתקשות כאשר הספרות משתנות בסגנון או כשהיקף הנתונים גדל. רשתות עמוקות טהורות כמו רשתות קונבולוציה סטנדרטיות, VGG16 ו־MobileNet מציגות ביצועים טובים יותר אך עלולות לדרוש זמן אימון רב יותר או הרבה יותר פרמטרים פנימיים. ResNet18-ThunderSVM מגיעה לדייקנות של כ־99.3% — קרוב לחלק העליון — תוך שימוש במספר בינוני של פרמטרים ושמירה על מהירות עיבוד גבוהה. היא מתכנסת מהר יותר ממסווג ResNet18 עצמאי ומנצחת בבירור את גרסת ThunderSVM שתלויה אך ורק בתכונות שנעשות באופן ידני.

Figure 2
Figure 2.

עמידה בפני רעש ותנאים חדשים

כתב יד במציאות לעיתים קרובות מטושטש, מוטה או כתוב בסגנונות לא מוכרים. כדי לדמות את האתגרים הללו, הצוות בודק את המודל על מערכי נתונים עם הרגלי כתיבה שונים ומוסיף "רעש" מלאכותי לחלק מהתמונות. על פני EMNIST אותיות, ספרות דואר USPS ופריטי לבוש ב־Fashion-MNIST, המודל ההיברידי מנצח בעקביות הן את ThunderSVM הפשוט והן היבריד מבוסס CNN חזק. הדיוק שלו יורד פחות כשמוסיפים רעש, מה שמראה עמידות חזקה יותר. החוקרים גם מודדים כמה זמן כל חלק מהמערכת לוקח וכמה זיכרון הוא צורך. ResNet18-ThunderSVM איטי וכבד יותר מהרשתות הקלות ביותר אך הרבה יותר יעיל מרשתות עמוקות מאוד, ומציע איזון מעשי בין מהירות, גודל ודיוק.

מה זה אומר לטכנולוגיה יומיומית

ללא מומחיות מיוחדת, המסר המרכזי הוא ששילוב מדוד של למידה עמוקה מודרנית עם למידת מכונה קלאסית יכול לשפר את יכולת המחשבים לקרוא תמונות בסגנון כתב יד ולהפוך אותם ליעילים יותר. במקום לעצב תכונות ידנית או להסתמך על רשתות אנד־טו־אנד ענקיות, צינור עבודה היברידי כזה מאפשר חזית ראיית מחשב חכמה להזין מנוע החלטות רזה אך חזק. התוצאה היא מערכת שקוראת ספרות בצורה מצוינת, מסתגלת טוב יותר לנתונים חדשים או רעשיים ומתאימה למכשירים שאינם יכולים להרשות לעצמם מודלים עצומים. גישה זו ניתנת להרחבה מעבר לספרות — לסריקות רפואיות, סצנות תנועה ומשימות ויזואליות אחרות שבהן יש לאזן בין דיוק, מהירות ומשאבי חישוב מוגבלים.

ציטוט: Zhang, C., Tu, C., Wang, Z. et al. ResNet18-ThunderSVM: Hybrid intelligence for handwritten digit recognition by fusing deep spatial features and high-performance classification. Sci Rep 16, 7701 (2026). https://doi.org/10.1038/s41598-026-38258-4

מילות מפתח: זיהוי ספרות בכתב יד, למידה עמוקה, מכונות וקטור תומך, מודלים היברידיים, סיווג תמונות