Clear Sky Science · ar
خوارزمية تعقب الأجسام تعتمد آلية الانتباه القابلة للتشكّل
المحافظة على التتبع في عالم مزدحم وغير منظم
تراقب الكاميرات الحديثة الشوارع المزدحمة والمراكز التجارية وأرضيات المصانع، لكن تعليم الحواسيب على تعقب العديد من الأشخاص والأجسام المتحركة في هذه المشاهد أمر أصعب مما يتوقع المرء. عندما يمر شخص خلف عمود، أو تتوهّج المصابيح الأمامية، أو يتزاحم الحشد عبر مدخل ضيق، قد يفقد برنامج التعقب المتقدّم التتبع، أو يخلط بين الهويات، أو يستهلك طاقة حسابية كبيرة. تقدم هذه الورقة نهجاً جديداً للتعقب مصمماً للبقاء مركّزاً على الأهداف بشكل أكثر موثوقية في مثل هذه الظروف الفوضوية الواقعية، مع الحفاظ على كفاءة تشغيلية مناسبة للاستخدام العملي.

لماذا تقصّر أساليب التعقب التقليدية
تعمل أنظمة تعقب الأجسام عادةً على ثلاث مراحل: تفحص كل إطار فيديو لاستخراج التفاصيل البصرية، ثم تدمج المعلومات من مستويات ومناطق مختلفة، وأخيراً تتنبأ بحركة كل هدف عبر الزمن. حسّنت كثير من الطرق الحديثة خطوة واحدة من هذه الخطوات في كل مرة — على سبيل المثال بتقوية الكاشف، أو تسريع الحسابات، أو إضافة نماذج حركة أذكى. لكن في المشاهد المزدحمة والسريعة التغير، تظهر نقاط الضعف بين هذه المكونات. الحقول البصرية الثابتة في الشبكات التقليدية لا يمكنها التكيّف مع الأجساد المنحنية أو الوضعيات المتغيرة، وتنبؤات الحركة التي تفترض حركة سلسة وبسيطة يمكن أن تنحرف كثيراً عندما يتوقف الناس أو يستديرون أو يختفون مؤقتاً خلف عوائق.
عين مرنة للأهداف المتحركة
يتصدى المؤلفون لهذه القيود عبر منح نظام التعقب طريقة أكثر مرونة لـ«النظر» إلى المشهد. يبدأون بجذع معالجة صور محبوب هو ResNet-18 ويدمجون فيه آلية انتباه قابلة للتشكّل. بدلاً من أخذ عيّنات المعلومات البصرية دائماً من نقاط ثابتة وموزعة بالتساوي، تتعلم هذه الآلية إزاحة مواقع أخذ العينات نحو البقع الأكثر إفادة على شخص أو جسم — مثل محيط الجذع أو الرأس — مع تجاهل التشويش الخلفي المشتت. عبر إدخال هذا الانتباه المرن في طبقات أعمق من الشبكة، يمكن للنظام تعديل تركيزه بينما يتغير وضع الأشخاص أو مقاييسهم أو يكونون مخفيين جزئياً، وذلك دون إضافة عبء حسابي كبير. تظهر الاختبارات على قواعد بيانات قياسية أن هذه «العين» المرنة لا تعزز دقة التعقب فحسب، بل تفعل ذلك بزيادة حسابية تقل عن 8% وزيادة طفيفة في عدد المعايير.
دمج التفاصيل عبر المستويات والزمن
يتطلب تعقب العديد من الأجسام في آن واحد أن يفهم النظام التفاصيل الدقيقة والصورة الأكبر معاً. لتحقيق ذلك، يستخدم الأسلوب وحدة دمج ميزات خاصة، هرم ميزات ثنائي الاتجاه، تخلط المعلومات من وجهات نظر عالية المستوى وخشنة ومنخفضة المستوى ودقيقة. يعزّز المؤلفون هذه الوحدة بنفس فكرة الانتباه القابل للتشكّل، مما يسمح بمحاذاة أفضل للميزات التي قد تُخطئ في التوافق عندما يتداخل الأشخاص أو يتحركون بسرعة. يساعد ذلك على فصل الأفراد في الحشود الكثيفة ويقلل من خلط الهويات. على بعد الزمن، يعتمد الخوارزم على أداة كلاسيكية من نظرية التحكم، مرشح كالمان، لكن بطريقة أذكى. بدلاً من اعتبار تنبؤ النموذج الحقيقة الأساسية والكاشف تصحيحاً بسيطاً، يتحدد سلوك المرشح وفق ثقة الكاشف في كل إطار. عندما يكون الكاشف واثقاً، يعتمد النظام عليه مباشرة ويكسر تراكم الخطأ؛ وعندما يكون غير واثق، يميل المرشح أكثر إلى الحركة السابقة، مزيجاً بين المصدرين بسلاسة.

ما مدى فعاليته في العالم الحقيقي؟
يقيم الفريق نهجهم — المسمّى DAM-Track — على مجموعات بيانات عامة تحدّية صممت لاختبار قدرات خوارزميات التعقب. في اختبارات الأجسام المفردة التي تركز على تسلسلات طويلة وحالات صعبة مثل التشوّه القوي والاختفاء الكامل، يحسّن الجذع المعتمد على الانتباه القابل للتشكّل معدلات التداخل والنجاح مقارنة بـ ResNet-18 القياسي، دون تكلفة إضافية كبيرة. على معيار متعدد الأجسام الشهير المملوء بحشود مشاة كثيفة للغاية، يحقق DAM-Track دقة إجمالية أعلى، وموضعية أدق، واتساق أفضل في الهويات مقارنة بأساليب مستخدمة على نطاق واسع مثل ByteTrack وDeepSORT. يحافظ على المزيد من المسارات لفترات أطول، يفقد أهدافاً أقل، ويبرع خصوصاً في تجنّب تبدلات الهوية، وهي نقطة حاسمة لتطبيقات مثل مراقبة السلامة وتحليل حركة المرور.
ما الذي يعنيه هذا للتطبيقات اليومية
بالنسبة للقارئ غير المتخصص، الخلاصة أن هذا العمل يجعل متتبعات الرؤية الحاسوبية أكثر مرونة في المشاهد الفوضوية وغير المتوقعة التي تهم عملياً — من محطات القطارات وشوارع المدن إلى المتاجر الذكية والمركبات الذاتية. من خلال السماح لـ«نظرة» النظام بالانحناء نحو المناطق المهمة ومن خلال تنسيق استخراج الميزات ودمج المستويات المتعددة وتنبؤ الحركة عبر مفهوم مشترك للثقة، يبني المؤلفون متتبّعاً حلقيّاً يحافظ على معرفة أفضل بمن أين الأشخاص عبر الزمن. رغم حاجة التصميم لمزيد من الاختبارات في ظروف ليلية وجوية ومتعددة الكاميرات، يشير هذا التصميم المرن المعتمد على الثقة إلى جيل جديد من أنظمة التعقب التي يمكنها مراقبة البيئات المعقدة بمزيد من الاعتمادية دون مطلب موارد حاسوبية غير عملية.
الاستشهاد: Liu, Q., Yu, N. & Cheng, J. Object tracking algorithm based on deformable attention mechanism. Sci Rep 16, 12454 (2026). https://doi.org/10.1038/s41598-026-43147-x
الكلمات المفتاحية: تتبع متعدد الأجسام, رؤية حاسوبية, آليات الانتباه, مراقبة الحشود, القيادة الذاتية