Clear Sky Science · ar

DMSCA: الانتباه القنوي-المكاني الديناميكي متعدد المقاييس لتحسين تمثيل الميزات في الشبكات العصبية التلافيفية

· العودة إلى الفهرس

تعليم الحواسيب كيف تولي اهتمامًا أفضل

تستطيع أنظمة التعرّف على الصور الحديثة تمييز القطط ولافتات المرور والأورام في الفحوصات الطبية—لكنها لا تعرف دائمًا على ماذا تركّز داخل الصورة. يقدم هذا البحث طريقة جديدة لمساعدة هذه الأنظمة على التركيز على أهم أجزاء الصورة، مما يحسّن الدقة ويجعلها أكثر موثوقية في ظروف العالم الحقيقي الفوضوية. تُدعى الطريقة الانتباه القنوي-المكاني الديناميكي متعدد المقاييس (DMSCA)، وتُضاف إلى الشبكات العصبية التلافيفية الحالية لمساعدتها على إدراك كل من «ما» و«أين» في الصورة بصورة أكثر ذكاءً.

Figure 1
شكل 1.

لماذا يهم التركيز في الرؤية الآلية

تعامل الشبكات العصبية التلافيفية، التي تشكّل العمود الفقري للعديد من تطبيقات الرؤية، عادةً كل إشارة داخلية على أنها ذات أهمية متساوية. هذا يعني أن حافة خافتة لجناح طائر وبقعة سماء قد تنالا اهتمامًا متشابهًا، رغم أن أحدهما فقط يساعد في تحديد النوع. حاولت طرق «الانتباه» السابقة معالجة هذا بتثمين بعض الإشارات الداخلية على حساب أخرى—سواء عبر القنوات الشبيهة بالألوان أو عبر التوزيع ثنائي الأبعاد للصورة. لكن تلك الطرق غالبًا ما اعتمدت قواعد ثابتة مصمّمة يدويًا، أو نظرت إلى مقياس واحد من التفاصيل في كل مرة، أو جمعت المعلومات بطريقة جامدة لا تتكيّف مع الصور المختلفة. ونتيجة لذلك، كانت أحيانًا تفوت التفاصيل الدقيقة، أو تتجاهل اتجاهات مثل «أفقي مقابل عمودي»، أو تواجه صعوبة عندما تكون الصور مشوشة أو ضبابية.

إضافة انتباه أذكى

صُمِّم DMSCA كوحدة صغيرة قابلة للإضافة يمكن إدراجها داخل شبكات معروفة مثل ResNet دون تغيير بنيتها العامة. بداخله، يُنسّق ستة أجزاء مترابطة تعمل معًا بدلاً من الانفصال. يلخّص جزء ما الصورة بأكملها لالتقاط المشهد العام، بينما يتعلم جزء آخر مدى أهمية كل قناة داخلية، مستخدمًا «حرارة» قابلة للتحكّم يمكن أن تجعل القرارات أكثر حدة أو ليونة حسب الحاجة. على الجانب المكاني، يستخدم DMSCA عدة أحجام نوافذ في آن واحد لالتقاط كل من القوام الدقيقة والأشكال الأكبر، وينتبه صراحةً لاتجاهيّة الأبعاد الأفقية والعمودية حتى لا تُطمس الحواف الطويلة أو الخطوط. وأخيرًا، بدلًا من جمع هذه الإشارات ببساطة، تتعلّم الوحدة، بكسلًا بكسل، مدى الثقة في معلومات "الما" القادمة من القنوات مقابل معلومات "المكان" القادمة من البُعد المكاني.

النظر إلى الصور عبر مقاييس واتجاهات متعددة

لفهم مكان التركيز في الصورة، يضغط DMSCA أولًا القنوات الداخلية العديدة إلى خريطة ثنائية الطبقة مدمجة تبرز كل من الاتجاهات الخلفية والسمات البارزة. ثم يمرّر هذه الخريطة عبر عدة مرشحات متوازية بأحجام مختلفة. ترى المرشحات الصغيرة التفاصيل الدقيقة مثل الفراء أو الريش، بينما تلتقط المرشحات الأكبر أشكالًا كالرؤوس أو الأجسام كاملة. بالتوازي، يمسح مكوّن اتجاهي الصفوف والأعمدة بشكل منفصل، محافظًا على الموضع الدقيق للهياكل المهمة. ثم تُتاح لهذه الرؤى الأفقية والعمودية فرصة التفاعل، بحيث يمكن لإشارة عمودية قوية، على سبيل المثال، تقوية المواقع الأفقية الصحيحة. النتيجة هي خريطة انتباه غنية تُعلم الشبكة ليس فقط بأن شيئًا ما مهم، بل أين هو وعلى أي مقياس يظهر.

ترك للشبكة قرار ما هو الأهم

نظرًا لأن أجزاء مختلفة من الصورة قد تستدعي استراتيجيات مختلفة، لا يفرض DMSCA وصفة ثابتة لدمج معلومات القنوات والمكان. بدلاً من ذلك، يبني بوابة صغيرة تفحص كلا المصدرين وتقرر—بشكل مستقل لكل بكسل—المقدار الواجب من الوزن لكل نوع. في خلفية مزدحمة، قد يعتمد النظام أكثر على القنوات البارزة، بينما حول حواف الأجسام الواضحة قد يؤكد الإشارات المكانية. ثم تعمل مرحلة تنشيط تكيفي نهائية مثل مفتاح تعتيم متعلّم، مرفعة المناطق المفيدة فعلاً ومخفّفة الضوضاء المتبقية. تساعد هذه العملية متعددة المراحل على توجيه اهتمام الشبكة نحو مناطق مترابطة مرتبطة بالأجسام، كما تؤكد خرائط الحرارة البصرية والقياسات الكمية لمدى مطابقة المناطق المميزة للأجسام الحقيقية.

Figure 2
شكل 2.

رؤية أكثر حدة مع جهد إضافي متواضع

اختبر المؤلفون DMSCA على عدة مجموعات معيارية، من مجموعات صغيرة من الصور الصغيرة إلى مجموعة ImageNet واسعة النطاق. عند إضافته إلى نماذج ResNet الشهيرة، حسّن DMSCA باستمرار دقة التصنيف—بنحو يصل إلى حوالي نقطتي مئوية على المجموعات الصغيرة و1.5 نقطة مئوية على ImageNet—متفوقًا على مجموعة من طرق الانتباه القائمة. كما جعل النماذج أكثر متانة تجاه تدهورات الصورة الشائعة مثل الضوضاء والتشويش والضغط القوي، وحسّن الأداء في مهام ذات صلة مثل اكتشاف الأجسام ووضع تسميات المشاهد. جاءت هذه المكاسب مع زيادة متواضعة فقط في الحساب والذاكرة. ببساطة، يمنح DMSCA الشبكات التلافيفية طريقة أكثر مرونة ووعيًا بالسياق لتحديد ما تنظر إليه وما تتجاهله، مقربًا الرؤية الآلية خطوة إلى تركيز البصر البشري الانتقائي.

الاستشهاد: Zong, L., Nan, S.J., Die, Z.F. et al. DMSCA: dynamic multi-scale channel-spatial attention for enhanced feature representation in convolutional neural networks. Sci Rep 16, 8044 (2026). https://doi.org/10.1038/s41598-026-37546-3

الكلمات المفتاحية: آليات الانتباه, التعرّف على الصور, الشبكات العصبية التلافيفية, تمثيل الميزات, الرؤية الحاسوبية المتينة