Clear Sky Science · ar

ClarityTrack لتتبُّع أهداف متعددة عبر الارتباط الهرمي ومطابقة تكلفة خاصة بالبيئة

· العودة إلى الفهرس

لماذا متابعة العديد من الأشياء المتحركة صعبة

من السيارات ذاتية القيادة إلى كاميرات المراقبة وبثوث الرياضة، يتوقع من الكاميرات الحديثة تتبُّع العديد من الأشخاص أو الأشياء في الوقت نفسه. لكن الحياة الواقعية فوضوية: يتقاطع الناس، يختفون خلف آخرين، أو يتلاشى مظهرهم أثناء الحركة. يقدم هذا البحث ClarityTrack، طريقة جديدة للحفاظ على "عيون" رقمية على أهداف متحركة متعددة بشكل أكثر موثوقية، حتى في الشوارع المزدحمة أو مشاهد الرقص السريعة.

كيف تتبع الحواسيب الأشياء عادةً

تقوم معظم أنظمة التتبُّع أولاً باكتشاف الأشياء في كل إطار فيديو، ثم تحاول ربط تلك الاكتشافات عبر الزمن لتشكيل مسارات سلسة. تعتمد على تلميحين رئيسيين: الحركة (أين من المتوقع أن تتحرك الأشياء لاحقاً) والمظهر (كيف تبدو، عبر بصمات بصرية تتعلمها الشبكات العميقة). الطرق الحالية عادةً تمزج هذين التلميحين باستخدام وصفة ثابتة، مثلاً وزن الحركة والمظهر دائماً بنفس النسبة. يعمل ذلك في المشاهد البسيطة، لكنه ينهار عندما تزدحم الحشود، تصبح الحركة غير متوقعة، أو يغير التمويه الناتج عن الكاميرا مظهر الناس.

لماذا الوصفة الثابتة غير كافية

تخيل مشاهدة معبر مشاة مزدحم: تتداخل المواضع، لذا تصبح المسافة المعتمدة على الحركة غير موثوقة، لكن الملابس والطول قد تظل تفصل بين الأشخاص. الآن تخيّل عرض رقص: الجميع يرتدون أزياء متشابهة ويتحركون بشكل عشوائي، لذا تكون إشارات المظهر والحركة غير مستقرة. يوضح البحث أن المتتبّعين التقليديين يتجاهلون هذا التنوع، فيعاملون كل إطار كما لو أن نفس مزيج الحركة والمظهر سينجح دائماً. كما يميلون إلى ببساطة جمع دليلي الأدلة دون التحقق مما إذا كانت تتفق فعلاً، مما قد يؤدي بصمت إلى تبادل الهويات وقطع المسارات.

Figure 1
الشكل 1.

استراتيجية من ثلاث خطوات لتتبُّع أوضح

يتصدى ClarityTrack لهذه المشاكل بتصميم قائم على قواعد يتكوّن من ثلاث وحدات تعمل على التتابع. أولاً، "الارتباط المتدرج المتوازن" يقسم الاكتشافات إلى مجموعات عالية ومنخفضة الثقة. بالنسبة للاكتشافات عالية الثقة يمزج الحركة والمظهر بتوازن للاستفادة من كلاهما. بالنسبة للاكتشافات منخفضة الثقة، يعود إلى مطابقة تعتمد على الحركة فقط بحذر لتجنّب التضليل الناجم عن صور مشوهة أو محجوبة. ثانياً، "المطابقة الواعية بالظرف مع أوزان" تعترف بأن بيئات الفيديو المختلفة تتصرف بشكل مختلف. تتعلّم مسبقاً مجموعات معلمات منفصلة للمشاهد المتوازنة، والمشاهد المزدحمة جداً، والحركة غير الخطية غير المستقرة. لكل تطابق محتمل بين كائن متتبع واكتشاف جديد، يقرر النظام فورياً ما إذا كان يحافظ على المزيج الحيادي 50:50 أو يتحول إلى مزيج مكيّف مع البيئة يفضل إما الحركة أو المظهر، ولكن فقط عندما تكون شروط الجودة واضحة.

التحقق مما إذا كانت الحركة والمظهر تحكيان نفس القصة

الوحدة الثالثة، "فحص اتساق الحركة والمظهر"، تعمل كحكم بين الحركة والمظهر. لكل تطابق محتمل، تفحص ما إذا كانت الموضع المتوقع والتشابه البصري كلاهما جيدين، أو أحدهما فقط، أو لا شيء منهما. عندما يتفقان، تخفّض قليلاً تكلفة المطابقة لتشجيع هذا الارتباط. عندما يتناقضان، ترفع التكلفة لردع خطأ محتمل. عندما تفشل الحركة لكن المظهر واضح جداً، تدعم بلطف إعادة ربط كائن أعيد الظهور بعد حجب أو حركة مفاجئة. تُضبط هذه التعديلات بشكل مختلف لكل نوع بيئي بحيث يبقى النظام حذراً في المشاهد المزدحمة جداً وأكثر ميلاً لإعادة الربط في مشاهد الرقص الفوضوية.

Figure 2
الشكل 2.

مدى فعالية النهج الجديد

اختبر المؤلفون ClarityTrack على ثلاث مجموعات مرجعية مستخدمة على نطاق واسع: MOT17، التي تمثل مشاهد الشوارع النموذجية؛ MOT20، التي تمثل أرصفة شديدة الاكتظاظ؛ وDanceTrack، المليئة بفرق راقصة تؤدي حركات معقدة. عبر هذه المجموعات، حقق ClarityTrack أداء موافقاً أو متفوقاً على أفضل المتتبِّعين عبر الإنترنت في مقاييس جودة التتبُّع الرئيسية، خصوصاً تلك التي تقيس مدى الحفاظ على الهويات عبر الزمن. ومن المهم أن معظم هذه الزيادات جاءت من ربط البيانات الأذكى بدلاً من شبكات عصبية أثقل، ولا يزال النظام يعمل بسرعة توازي الزمن الحقيقي أو تفوقه في المشاهد النموذجية.

ماذا يعني هذا لتقنية الحياة اليومية

لغير الخبراء، الخلاصة الرئيسية هي أن ClarityTrack يوضح كيف أن قواعد بسيطة وشفافة، عندما تُضبط بعناية لتناسب البيئة، يمكن أن تضاهي أو تحسن على النهج العامة الأكثر غموضاً. بفصل الاكتشافات عالية ومنخفضة الثقة، والتكيّف مع نوع المشهد، والتحقق صراحة مما إذا كانت الحركة والمظهر متوافقتين، تحافظ الطريقة على تتبُّع الأشخاص بشكل أكثر موثوقية في كل شيء من حشود الشوارع إلى ساحات الرقص. يمكن أن يجعل هذا النوع من التتبُّع الواعي بالبيئة أنظمة الكاميرات أكثر أماناً وثقة في العالم الواقعي الفوضوي والمتغير باستمرار.

الاستشهاد: Lee, SE., Yang, HS., Jung, SH. et al. ClarityTrack for multi object tracking via hierarchical association and environment specific cost matching. Sci Rep 16, 10581 (2026). https://doi.org/10.1038/s41598-026-45425-0

الكلمات المفتاحية: تتبُّع متعدد الأهداف, رؤية حاسوبية, مراقبة الفيديو, تحليل الحشود, القيادة الذاتية