Clear Sky Science · ar

SSG–CAM: تعزيز قابلية التفسير البصري عبر تدرجات مرتبة ثانية مصقولة ودمج تطوري متعدد الطبقات

2026-01-31 · العودة إلى الفهرس

لماذا يهم أن نرى داخل الذكاء الاصطناعي

تستطيع أنظمة التعرف على الصور الحديثة اكتشاف الأورام أو إشارات المرور أو طفيليات صغيرة في خلايا الدم بسرعة تفوق البشر—لكنها نادراً ما تُظهر لنا بالضبط لماذا اتخذت قراراً معيناً. هذا السلوك «الصندوق الأسود» مزعج بشكل خاص في الطب والمجالات الحرجة للسلامة، حيث قد يكون للتخمين الخاطئ عواقب خطيرة. تقدم الورقة طريقة جديدة لجعل نماذج التعلم العميق تشرح نفسها بصرياً بشكل أوضح وأكثر موثوقية، مما يساعد البشر على رؤية أجزاء الصورة التي دفعت القرار الآلي فعلاً.

من خرائط حرارية ضبابية إلى تفسيرات أكثر وضوحاً

تُحوّل مجموعة شائعة من الأدوات تُدعى خرائط تنشيط الفئة (CAM) عمليات الشبكة العصبية الداخلية إلى خرائط حرارية ملونة تُغَطى على الصورة الأصلية. تُظهر المناطق الساطعة أين «نظرت» الشبكة لتقرر، على سبيل المثال، أن الصورة تحتوي طائراً أو خلية مريضة. غالباً ما تعتمد طرق CAM الحالية على إشارات التدرج البسيطة من الطبقة الأولى داخل الشبكة. يمكن أن تكون هذه الإشارات صاخبة أو «مشبعة»، بمعنى أنها تتوقف عن التغير حتى حين تظل تفاصيل الصورة مهمة. ونتيجة لذلك، قد تُضيء الخرائط الحرارية أجزاء كبيرة من الخلفية، أو تفقد تفاصيل دقيقة، أو تُنتج تفسيرات غير متسقة من طبقة لأخرى.

نظرة ثانية أكثر سلاسة على ما تراه الشبكة

يقترح المؤلفون طريقة Smooth Second-Order Gradient CAM، أو SSG–CAM. بدلاً من الاعتماد فقط على الدفع الأولي للتدرجات، تنظر SSG–CAM أيضاً في كيفية تغير تلك التدرجات نفسها—المعلومات من الرتبة الثانية. تساعد هذه الطبقة الإضافية من الحساسية في كشف الميزات التي يعتمد عليها قرار الشبكة فعلاً، مما يقلل من خطر طمس الأدلة المهمة. وللكبح عشوائية الضوضاء، تُسوّي SSG–CAM التدرجات بلطف باستخدام مرشح غاوسي، مماثل لما يفعله طمس الكاميرا لإزالة الشوائب مع الحفاظ على الأشكال. أخيراً، تجمع بين إشارات الرتبة الأولى والثانية الممسوحة بطريقة تُبرز الاستجابات القوية والموثوقة وتكبِت الضعيفة أو غير المتسقة، مما ينتج خرائط حرارية أنظف وأكثر تركيزاً.

إتاحة للخوارزميات اختيار أفضل الطبقات

لا تعمل الشبكات العميقة في خطوة واحدة: تلتقط الطبقات الأولية الحواف والأنسجة بينما تشفر الطبقات الأعمق الأشياء أو المفاهيم الكاملة. تحاول العديد من طرق CAM دمج معلومات من عدة طبقات، لكن غالباً وفق قواعد يدوية أو ثابتة. تُظهر الدراسة أن جمع كل الطبقات ببساطة قد يضر بالأداء فعلاً، بإضافة ضوضاء منخفضة المستوى تُطمس التفسير النهائي. لحل هذه المشكلة، يُقرن المؤلفون SSG–CAM باستراتيجية تحسين تُدعى التطور التفاضلي، مُشكِّلين إطار DE–SSG–CAM. تبحث هذه الخوارزمية تلقائياً عبر تراكيب طبقات الميزات وبعض الإعدادات الأساسية، ساعية لإيجاد الخليط الذي يتطابق أفضل مع أشكال الأشياء الحقيقية في مجموعة صغيرة موسومة. وبمجرد العثور عليه، يمكن إعادة استخدام هذه الإعدادات، مما يوفر تفسيرات متعددة الطبقات قوية دون ضبط يدوي مكلف.

وضع الطريقة على المحك

اختبر الباحثون SSG–CAM وDE–SSG–CAM عبر سلسلة من الاختبارات المطالبَة. على معايير الصور القياسية، حسّنت الطريقة الجديدة تحديد موقع الأشياء بإشراف ضعيف—رسم مربعات حول الأشياء باستخدام تسميات مستوى الصورة فقط—بشكل أدق من عدة متغيرات شهيرة لـ CAM. كما حسّنت التقسيم الدلالي بإشراف ضعيف، الذي يطلب من النموذج تسمية كل بكسل دون توفير أقنعة تدريب مفصلة. في تجربة «تشويش الصورة»، طمست الفريق المناطق المميزة بواسطة كل طريقة. عندما أزالوا المناطق التي اختارتها SSG–CAM، انخفضت دقة الشبكة أكثر، مما يشير إلى أن هذه المناطق المميزة كانت حاسمة فعلاً لقرار النموذج، وليست مجرد بقع بارزة زخرفية.

العثور على طفيليات صغيرة في خلايا الدم

أبرز تطبيق جاء من التصوير الحيوي الطبي. استخدم المؤلفون منهجهم لتحديد مواضع طفيليات الملاريا داخل صور خلايا الدم الحمر، وهي مهمة قد تكون فيها المناطق المصابة دقيقة وغير منتظمة. باستخدام تسميات عدوى على مستوى الصورة فقط أثناء التدريب، أنتج DE–SSG–CAM أقنعة مزيفة طابقت حدود الخبراء عن قرب، محققاً متوسط تداخل/اتحاد (Intersection over Union) بنسبة 62.38%—نتيجة قوية لمشكلة ضعيفة التعليم بهذا القدر من الصعوبة. كما انتقل الإطار جيداً إلى نوع شبكة مختلف، ResNet34، مما يبيّن أن التقنية ليست مرتبطة ببنية واحدة ويمكنها التكيف عبر التصاميم.

ماذا يعني هذا للمستخدمين العاديين

بالنسبة لغير المتخصصين، الرسالة الأساسية هي أن هذه الطرق تجعل «تفكير» الذكاء الاصطناعي أكثر وضوحاً وجديرة بالثقة. تقدم SSG–CAM خرائط حرارية أكثر حدة وأقل ضوضاء تتوافق أفضل مع ما قد يعتبره البشر الجسم أو الآفة الحقيقية، بينما يتعلم DE–SSG–CAM تلقائياً كيفية دمج المعلومات من أعماق شبكات مختلفة. معاً، يقربان التفسيرات البصرية خطوة نحو شيء يمكن للأطباء والمهندسين والمنظمين الاعتماد عليه عند السؤال: «لماذا قال النموذج إن هذه الصورة تظهر مرضاً—أو خطراً؟»

الاستشهاد: Chen, Z., Zhang, Y.J., Pan, L. et al. SSG–CAM: enhancing visual interpretability through refined second-order gradients and evolutionary multi-layer fusion. Sci Rep 16, 6848 (2026). https://doi.org/10.1038/s41598-026-37278-4

الكلمات المفتاحية: الذكاء الاصطناعي القابل للتفسير, خرائط تنشيط الفئة, تصوير التعلم العميق, تحليل الصور الطبية, تحديد موقع الأشياء