Clear Sky Science · ar

نموذج تعرف على الرسوم التخطيطية قائم على شبكة CycleGAN المحسّنة وآلية الانتباه المزدوجة

· العودة إلى الفهرس

تعليم الحواسيب فهم الشخبطة

من الرسوم على منديل إلى شخبطة على السبورة البيضاء، تُعد الرسومات السريعة واحدة من أكثر الطرق طبيعية لمشاركة الأفكار بين الناس. لكن بالنسبة للحواسيب، تكون هذه الخطوط القليلة صعبة التفسير بشكل مفاجئ. يقدم هذا البحث نموذج ذكاء اصطناعي جديد يمكنه التعرف على الرسوم المرسومة يدوياً بدقة ملحوظة، مما يقربنا من تطبيقات قادرة فورياً على تحويل الشخبطات الخشنة إلى صور مصقولة أو أيقونات قابلة للبحث أو تصاميم تفاعلية.

لماذا تبدو الرسوم التخطيطية صعبة على الآلات

على عكس الصور الملونة الكاملة، تتكون الرسوم التخطيطية من بضعة ضربات فقط. يرسم أشخاص مختلفون نفس الشيء بطرق متباينة تماماً، وقد تكون التفاصيل الهامة مفقودة أو باهتة أو موضوعة بشكل غير متساوٍ على الصفحة. تعتمد أنظمة التعرف التقليدية على قواعد مصاغة بعناية أو ميزات صور معيارية، وغالباً ما تُفسر تغيّرات الخطوط الطفيفة على أنها اختلافات ذات معنى. كنتيجة لذلك، قد تختلط عليها الأشياء المتشابهة، مثل الثعلب والكلب، أو تواجه صعوبة مع الرسومات الفوضوية وغير الرسمية. لجأ الباحثون إلى التعلّم العميق لتعلّم الأنماط مباشرة من البيانات، لكن حتى الأنظمة الحديثة قد تتعثر عندما تكون الرسوم بسيطة جداً أو فيها ضوضاء أو متنوعة للغاية.

Figure 1
الشكل 1.

نهج أذكى للنظر إلى الرسوم الخطية

يتعامل المؤلفون مع هذه التحديات عبر نموذج يعتبر فهم الرسوم كعملية من خطوتين: أولاً، جعل الرسم أسهل لـ«رؤيته» من قبل الحاسوب، ثم توجيه الانتباه إلى الأكثر معلوماتية. في صميم نهجهم نسخة محسّنة من إطار ترجمة الصور القوي المعروف باسم CycleGAN. بدلاً من النظر إلى الرسم مرة واحدة فقط، تمرره الشبكة عبر مرشحات اتجاهية متعددة تطل على الضربات من زوايا عدة، مما يلتقط الحواف والكونتور بصورة أشمل. ثم تقوم وحدة موازنة السطوع بتسوية المناطق الفاتحة والداكنة حتى لا تُربك اختلافات التظليل أو الإضاءة الضعيفة النظام. معاً، تحول هذه الخطوات الشخبطات الخام إلى تمثيلات داخلية أغنى تُبرز البنية الأساسية للكائن.

تعليم الشبكة ما الذي يجب الانتباه إليه

حتى مع ميزات أفضل، يظل الرسم مزيجاً من ضربات مفيدة وتفاصيل مشتتة. لفصل الإشارة عن الضوضاء، يستخدم النموذج آلية انتباه مزدوجة مستوحاة من كيفية تركيز البشر لبصرهم. جزء واحد، يُسمى انتباه القناة، ينظر عبر مجموعات مختلفة من الميزات المستخرجة ويعزز تلك التي تميز فئة عن أخرى بشكل أفضل، مثل المحيط الدائري للعجلة أو منقار الطائر. أما الجزء الآخر، انتباه مكاني، فيركز على مناطق محددة من الرسم، مؤكداً أين تكمن الضربات الأكثر معلوماتية مع تقليل أهمية المناطق الفارغة أو الفوضوية. تعمل هاتان الصيغتان من الانتباه معاً بحيث لا يرى النموذج المزيد فحسب، بل يعرف أيضاً ما يتجاهله.

اختبار النموذج

بعد استخراج وتحسين ميزات الرسم، يمرر النظام هذه الميزات إلى مُصنف مدمج يمزج التجميع العالمي المتوسط مع طبقات التلافيف الإضافية لاتخاذ القرار النهائي حول ما يمثله الرسم. درّب الباحثون نموذجهم وقيموه على مجموعتي رسومات مستخدمتين على نطاق واسع: TU-Berlin، التي تضم 25,000 رسماً لأشياء يومية، وQuickDraw، التي تضم ملايين الشخبطات غير الرسمية المجمعة من لاعبين على الإنترنت. للحفاظ على واقعية الاختبار، أعادوا تغيير حجم الصور، وأزالوا الضوضاء، وقسموا البيانات إلى مجموعات تدريب واختبار منفصلة. عبر هذه المعايير، تفوق النموذج الجديد باستمرار على الطرق الموجودة، محققاً دقة تزيد عن 97% في كلتا المجموعتين وتغلب على عدة منافسين متقدمين في الدقة والاستدعاء والقياس المركب المعروف بمؤشر F1.

Figure 2
الشكل 2.

ماذا يعني هذا للأدوات اليومية

بالنسبة لغير المتخصصين، تختزل التفاصيل التقنية في رسالة بسيطة: هذا النموذج يجعل الحواسيب أفضل بكثير في فهم الرسومات الخشنة. عبر إعادة تصميم طريقة استخراج الخطوط، وتسوية السطوع، وتوجيه الانتباه، يُظهر المؤلفون أن الآلات يمكنها التعرف بثقة حتى على الرسوم النادرة والغريبة. يفتح ذلك الباب أمام محركات بحث تعتمد على الرسم، وبرامج تصميم تحول الشخبطات السريعة إلى أعمال فنية مصقولة، وطرق أكثر طبيعية للتفاعل مع الأجهزة دون نقرات ماوس دقيقة أو مهارات فنية احترافية. بينما لا يزال النظام قد يخلط أحياناً بين فئات متشابهة جداً، قد تغلق الأعمال المستقبلية التي تجمع تحليل الرسوم مع دلائل لغوية هذه الفجوة، ما يجعل الشخبطة باليد واجهة عالمية حقيقية بين البشر والآلات.

الاستشهاد: Wang, Y., Xie, L. & Huang, M. Sketch recognition model based on improved CycleGAN network and dual attention mechanism. Sci Rep 16, 14014 (2026). https://doi.org/10.1038/s41598-026-44146-8

الكلمات المفتاحية: التعرف على الرسوم التخطيطية, التعلّم العميق, CycleGAN, آلية الانتباه, التفاعل بين الإنسان والحاسوب