Clear Sky Science · ar
ResNet18-ThunderSVM: ذكاء هجيني للتعرف على الأرقام المكتوبة بخط اليد عبر دمج الميزات المكانية العميقة والتصنيف عالي الأداء
لماذا يهم تعليم الحواسيب قراءة الخط اليدوي
في كل مرة تقوم فيها مؤسسة مالية بمعالجة شيك، أو يصحح معلم اختبارًا ممسوحًا ضوئيًا، أو يحوّل هاتفك كتاباتك اليدوية إلى نص رقمي، هناك نظام خفي يجب أن يقرأ خط الإنسان الفوضوي بشكل صحيح. تمكين الآلات من أداء هذه المهمة بسرعة ودقة يوفر الوقت ويخفض التكاليف ويقلل الأخطاء البشرية. تقدم هذه الورقة طريقة جديدة للتعرف على الأرقام المكتوبة بخط اليد تهدف إلى أن تكون دقيقة للغاية وسريعة بما يكفي للاستخدام العملي، حتى على الأجهزة ذات قدرة الحوسبة المحدودة.

دمج قوتين في نظام أذكى واحد
يجمع الباحثون بين نوعين مختلفين من الذكاء الاصطناعي في نموذج «هجيني» واحد يسمونه ResNet18-ThunderSVM. الجزء الأول، ResNet18، هو شبكة عميقة قادرة على اكتشاف الأنماط في الصور تلقائيًا، مثل الضربات والمنحنيات والأشكال في الأرقام المكتوبة يدويًا. الجزء الثاني، ThunderSVM، هو نسخة سريعة معززة بوحدة معالجة رسومية لطريقة التعلم الآلي الكلاسيكية المعروفة باتخاذ قرارات قوية ومستقرة عندما تتوفر ميزات جيدة. عبر ترك ResNet18 ليقوم بالعمل الشاق لاكتشاف الميزات ثم تمرير معلوماته المركّزة إلى ThunderSVM لاتخاذ القرار النهائي، يهدف النظام إلى الحصول على أفضل ما في العالمين: فهم غني للصور وتصنيف فعال وموثوق.
من البكسلات الخام إلى قرارات واثقة
تأتي الأرقام المكتوبة بخط اليد في هذه الدراسة من أربع مجموعات صور شائعة: MNIST وEMNIST وUSPS وFashion-MNIST. تشمل هذه المجموعات أرقامًا بسيطة وحروفًا وكتابات بأسلوب بريدي وصورًا صغيرة لملابس، مما يوفر طيفًا من الصعوبات. تُعاد تحجيم كل الصور وتُطَبَّع بحيث تسقط سطوعاتها ضمن نطاق مستقر، مما يساعد الشبكة العصبية على التعلم بسلاسة أكبر. يقوم ResNet18، الذي يُعاد ضبطه بدلاً من تركه مجمَّدًا، بتحويل كل صورة ثنائية الأبعاد تدريجيًا إلى «بصمة» مكوّنة من 512 رقمًا تلتقط أهم التفاصيل البصرية. تُقاس هذه البصمة بلطف للحفاظ على سلوكية قيمها الجيدة ثم تُغذَّى إلى ThunderSVM، الذي يتعلّم فصل الأرقام المختلفة باستخدام قواعد رياضية فعالة تُعرف بالنوى (kernels).
كيف تقارن المقاربة الجديدة
يقارن المؤلفون نموذجهم الهجين مع طرق تقليدية والعديد من أنظمة التعلم العميق على مجموعة بيانات الأرقام الشهيرة MNIST. تعمل الأساليب الأقدم مثل أشجار القرار، والغابات العشوائية، وآلات متجه الدعم الأساسية بشكل معقول في المشكلات الصغيرة لكنها تقصر عندما تختلف أنماط الأرقام أو يزداد حجم البيانات. تحقق الشبكات العميقة الصافية مثل نماذج الالتفاف القياسية VGG16 وMobileNet أداءً أفضل بكثير لكنها قد تتطلب وقت تدريب أطول أو عددًا أكبر بكثير من المعاملات الداخلية. يصل ResNet18-ThunderSVM إلى حوالي 99.3% دقة—قريبًا من القمة—مع استخدام عدد معتدل من المعاملات والحفاظ على سرعة معالجة عالية. يتقارب بشكل أسرع من مصنف ResNet18 مستقل ويتفوّق بوضوح على ThunderSVM الذي يعتمد فقط على ميزات مصممة يدويًا.

الثبات في مواجهة الضوضاء والظروف الجديدة
الكتابة اليدوية في العالم الحقيقي غالبًا ما تكون ملطخة، مائلة، أو مكتوبة بأنماط غير مألوفة. لمحاكاة هذه التحديات، يختبر الفريق نموذجه على مجموعات بيانات ذات عادات كتابة مختلفة ويضيف "ضوضاء" اصطناعية إلى بعض الصور. عبر مجموعات EMNIST للحروف وUSPS للأرقام البريدية وFashion-MNIST لعناصر الملابس، يتفوق النموذج الهجين باستمرار على كل من ThunderSVM العادي وهجين قوي قائم على الشبكات التلافيفية. تنخفض دقته بدرجة أقل عندما تُضاف الضوضاء، مما يدل على متانة أقوى. كما يقيس الباحثون الزمن الذي تستغرقه كل جزء من النظام والذاكرة التي يستخدمها. يُعد ResNet18-ThunderSVM أبطأ وأثقل من أخف الشبكات لكنه أكثر كفاءة بكثير من النماذج العميقة جدًا، محققًا توازنًا عمليًا بين السرعة والحجم والدقة.
ماذا يعني هذا لتقنيات اليوميّة
للغير متخصصين، الرسالة الأساسية هي أن الاقتران الدقيق بين التعلم العميق الحديث والتعلم الآلي الكلاسيكي يمكن أن يجعل الحواسيب أفضل وأكثر كفاءة في قراءة الصور الشبيهة بالخط اليدوي. بدلًا من تصميم ميزات يدويًا أو الاعتماد على شبكات ضخمة شاملة، تتيح هذه السلسلة الهجينة لواجهة رؤية ذكية أن تغذي محرك قرار نحيفًا لكن قويًا. النتيجة نظام يقرأ الأرقام بشكل ممتاز، ويتكيّف بشكل أفضل مع بيانات جديدة أو مشوشة، ويبقى مناسبًا للأجهزة التي لا تحتمل نماذج هائلة. يمكن توسيع هذه المقاربة إلى ما يتجاوز الأرقام لتشمل صورًا طبية ومشاهد مرورية ومهام بصرية أخرى حيث يجب موازنة الدقة والسرعة والموارد الحاسوبية المحدودة.
الاستشهاد: Zhang, C., Tu, C., Wang, Z. et al. ResNet18-ThunderSVM: Hybrid intelligence for handwritten digit recognition by fusing deep spatial features and high-performance classification. Sci Rep 16, 7701 (2026). https://doi.org/10.1038/s41598-026-38258-4
الكلمات المفتاحية: التعرف على الأرقام المكتوبة بخط اليد, التعلّم العميق, آلات متجه الدعم, النماذج الهجينة, تصنيف الصور