Clear Sky Science · ar
اندماج السمات المكانية-الزمانية الموجه بالانتباه للكشف المتين عن الشذوذ في مراقبة الفيديو
لماذا تهم الكاميرات الأذكى
من محطات القطارات المزدحمة إلى مراكز التسوق، يملأ حياتنا الحديثة وجود كاميرات أمنية تسجل بهدوء كل ما يحدث. ومع ذلك، لا تزال معظم هذه الفيديوهات تُشاهَد — إن تمت مشاهدتها — بواسطة عيون بشرية متعبة قد تفوت لحظة حاسمة بسهولة. تستعرض هذه الورقة نظام مراقبة «ذكي» جديد قادر على اكتشاف السلوك غير الاعتيادي أو الخطِر تلقائياً، مثل السرقة أو التخريب، في الوقت الحقيقي من خلال فهم ما يظهر في المشهد وكيف يتغير مع الزمن.

رؤية تتجاوز البكسلات
مجرّد تيار كاميرا تقليدي هو سلسلة من الصور. حاولت أنظمة الحوسبة القديمة اكتشاف المشاكل من خلال النظر إلى كل إطار على حدة، باحثة عن أشكال وحواف تشبه الأشخاص أو الأشياء. يختبر المؤلفون أولاً نسخة حديثة من هذه الفكرة تستخدم شبكة مضغوطة للتعرّف على الصور مدمجة مع كاشفات حواف تقليدية. يعمل هذا الإعداد بشكل جيد إلى حدّ ما في المشاهد المصوّرة بعناية، خصوصاً لاكتشاف دلائل بصرية واضحة مثل شخص يلتقط غرضاً. لكن لأن التركيز على لقطات منفردة، فإنه يواجه صعوبة عندما يحجب الأشخاص بعضهم بعضًا، أو تصبح الحشود كثيفة، أو عندما قد يعني نفس الوضع الجسدي سلوكاً عادياً أو مريباً اعتماداً على تطور الحدث عبر الزمن.
فهم الحركة والسلوك
لالتقاط القصة وراء الفعل، وليس مجرد مظهر إطار واحد، تقيم الدراسة نموذجاً مركزاً على الفيديو يحلل مقتطفات قصيرة بدلاً من الصور الثابتة. يتعلم هذا النموذج كيفية تدفق الحركة عبر عدة إطارات ويمكنه تحديد التغيرات المفاجئة بشكل أفضل مثل الجري أو الشجار أو الخطف. يثبت كفاءته في الالتقاط العديد من الأحداث الشاذة، مما يؤدي إلى حساسية عالية. ومع ذلك، يعاني أيضاً من مشكلة واقعية كلاسيكية: الأحداث الشاذة الحقيقية نادرة مقارنة بالنشاط اليومي. ونتيجة لذلك، قد يصبح النموذج غير ثابت، مولِّداً إنذارات زائفة كثيرة ويتطلب مقاطع فيديو مقطوعة بعناية لا تعكس الطبيعة الفوضوية والمتواصلة لمقاطع المراقبة الحقيقية.
مزج أين ومتى
انطلاقاً من نقاط القوة والضعف في هذين الأساسين، يقترح المؤلفون نظاماً هجيناً جديداً اسمه HybridModel-1 يهدف إلى «التفكير» مكانياً وزمنياً في آن واحد. يجمع هذا النظام بين شبكة قادرة جداً على فهم ما هي الأشياء الموجودة في كل إطار وكاشف سريع يحدد موقع تلك الأشياء في المشهد. يتعلّم وحدة اندماج خاصة إبراز التفاصيل البصرية الأكثر إفادة — مثل الأشخاص والأجسام الأساسية — مع تقليل التركيز على الضوضاء الخلفية مثل الجدران أو الأشجار أو السيارات المارة. وفي الوقت نفسه، تُطبّق استراتيجية تدريب جديدة تُعاقب بلطف النظام متى قفزت ثقته بشكل مبالغ من إطار إلى آخر، موجهة إياه نحو قرارات أكثر سلاسة واتساقاً عبر كامل الفيديو.

اختبار النظام
لمعرفة ما إذا كان هذا التصميم يعمل خارج المختبر، يختبر الباحثون النظام على عدة مجموعات بيانات عامة وصعبة تحتوي على لقطات مراقبة حقيقية. تشمل هذه المجموعات كل شيء من مشاهد سرقة داخلية إلى ممرات خارجية في الحرم الجامعي، مع تواضع اختلافات في مواقع الكاميرا، الإضاءة، أحجام الحشود وأنواع الحوادث. عبر هذه المعايير القياسية، يتفوق النموذج الهجين على كلٍ من الأساسيات المعتمدة على الصور فقط أو على الفيديو فقط. يحقق دقة أعلى إجمالاً، ويولد إنذارات زائفة أقل بكثير، ويحافظ على أداء قوي حتى عند تقييمه على لقطات لم يُدرَّب عليها. تُظهر المقارنات التفصيلية ودراسات الإقصاء — حيث تُزال أو تُغيّر أجزاء من النظام — أن وحدة اندماج السمات وخطوة التدريب المركّزة على السلاسة تسهمان بشكل ملموس في هذه المكاسب.
ماذا يعني هذا للسلامة اليومية
بعبارة بسيطة، تُظهر هذه الدراسة أن أنظمة المراقبة تصبح أكثر موثوقية عندما تتعلم أن تولي الانتباه للأجزاء الصحيحة من المشهد وتبقى ثابتة في أحكامها بمرور الوقت. بدلاً من التعامل مع كل إطار كصورة معزولة أو الاعتماد فقط على الحركة الخام، يمزج النهج المقترح بين «ما» و«متى» في إطار واحد مضبوط بعناية. وبينما تبقى تحديات في المشاهد المعتمة جداً أو المحجوبة بكثافة، تشير النتائج إلى مسار عملي نحو شبكات كاميرات يمكنها فرز كميات هائلة من الفيديو بهدوء، إظهار الأحداث المريبة فعلاً، وتقليل عبء الإنذارات الزائفة على المشغلين البشر. وللجمهور، قد يعني ذلك أماكن أكثر أماناً تُراقَب بواسطة أنظمة لا تكتفي بالمشاهدة فحسب، بل تفهم ما تراه حقاً.
الاستشهاد: Nivethika, S.D., Joshi, S., Verma, K. et al. Attention-guided saptio-temporal feature fusion for robus video surveillance anomaly detection. Sci Rep 16, 8027 (2026). https://doi.org/10.1038/s41598-026-36130-z
الكلمات المفتاحية: مراقبة الفيديو, الكشف عن الشذوذ, الكاميرات الذكية, كشف الجريمة, تعلم الآلة