Clear Sky Science · ar
تعميم نطاق أحادي قائم على تحويل فورييه لعد الحشود
لماذا تهم الدقائق الأكثر ذكاءً لعد الحشود
من مهرجانات الموسيقى ومحطات المترو إلى شوارع المدينة في ليلة ممطرة، فإن معرفة عدد الأشخاص التقريبي في مكان ما أمر حيوي لتخطيط السلامة، وإدارة المرور، والاستجابة للطوارئ. تستطيع أنظمة الحاسوب الحالية تقدير أحجام الحشود من لقطات الكاميرا، لكنها غالبًا ما تفشل عندما تتغير الظروف — مثل نقل الكاميرا، أو تحول الإضاءة من النهار إلى الليل، أو قيام الضباب أو الضبابية بإخفاء التفاصيل. تقدم هذه الورقة SinCount، نهجًا جديدًا يهدف إلى جعل عد الحشود الآلي أكثر موثوقية في العالم الفوضوي والمتغيّر عمليًا.

مشكلة المشاهد المتغيرة
تستخدم معظم أنظمة عد الحشود الحديثة التعلم العميق لتحويل الصورة إلى «خريطة كثافة»، وهي نوع من أنماط الحرارة التي تُظهر مكان الأشخاص ومدى تكدسهم. يؤدي جمع قيم هذه الخريطة إلى الحصول على العدد الكلي. يمكن أن تكون هذه الأنظمة دقيقة جدًا عندما تشبه الصور التي تعالجها الصور التي تدربت عليها. في الممارسة العملية، مع ذلك، تختلف المشاهد اختلافًا كبيرًا: توجه الكاميرات بزاويا مختلفة، تتراوح الحشود بين أرصفة متفرقة وملاعب مكتظة، ويمكن أن يتغير الطقس والإضاءة من ضوء ساطع إلى ليالي ضبابية. جمع صور معلمة جديدة لكل موقع جديد بطيء ومكلف، خاصة لأن كل شخص يجب تمييزه يدويًا. نتيجة لذلك، غالبًا ما تتعثر النماذج المدربة في بيئة واحدة عند نقلها إلى أخرى، وهي مشكلة تُعرف باسم «انزياح النطاق».
النظر إلى الحشود من خلال الترددات
يتناول المؤلفون هذه المشكلة من خلال النظر إلى الصور ليس فقط كبيكسلات، بل كمجموعات من الترددات، بالمفهوم المستخدم في تحويل فورييه. تُبرز الأجزاء ذات التردد العالي الحواف الحادة والتفاصيل الدقيقة، مثل محيط الرؤوس والكتفين. تلتقط الأجزاء ذات التردد المنخفض التخطيط العام للمشهد، مثل أماكن تواجد الحشد عمومًا أو مدى الكثافة في مناطق مختلفة. يلاحظ الفريق أن هذين النوعين من المعلومات يناسبان بطبيعة الحال مهمتين مختلفتين: الإشارات الترددية التفصيلية أفضل لتقدير عدد الأشخاص في كل قطعة صغيرة، بينما الإشارات الأملس منخفضة التردد أفضل لتحديد أي المناطق تحتوي بالفعل على حشود مقابل الخلفية.
جزآن يعملان معًا لتقاسم العبء
استنادًا إلى هذه الفكرة، تستخدم SinCount تصميمًا ذو فرعين. يقوم مستخرج ميزات مشترك أولًا بمعالجة الصورة، ثم ينفصل إلى فرع الكثافة وفرع التصنيف. تفصل وحدة خاصة، تسمى استخلاص الميزات الخاصة بالتردد، نسخًا ذات تردد عالٍ ومنخفض للمشهد وتتعلم تمثيلات داخلية مدمجة لكلٍ منهما. يتلقى فرع الكثافة توجيهًا من التردد العالي عبر كتلة انتباه مكانية تبرز المواقع التي من المحتمل أن تتوافق مع الأشخاص، مما يحدّد خريطة الكثافة النهائية. وفي الوقت نفسه، يتلقى فرع التصنيف توجيهًا من التردد المنخفض عبر انتباه قائم على القنوات يعزز الميزات المرتبطة بمناطق الحشود ويكبح الخلفية غير ذات الصلة. معًا، ينتجان خريطة كثافة مصقولة تركز على مناطق الحشد مع تجاهل المناطق الفارغة أو المربكة.

الحفاظ على التركيز في عالم صاخب
تحتوي الصور الحقيقية أيضًا على مشتتات: يمكن للوهج، والضباب الحركي، أو تغييرات الإضاءة أن تدفع النموذج نحو أنماط مضللة. للحماية من ذلك، تضيف SinCount فكرتين إضافيتين. تقارن قناع تهذيب العينة (instance normalization mask) كيف تستجيب الميزات لصورة أصلية وإصدار مُحوَّر (مثل واحد تعرض للتشويش اللوني أو التمويه) وتقلل من أهمية المواقع التي تتغير كثيرًا، معتبرة إياها غير موثوقة. ثم يشجع فقدان اتساق الانتباه النظام على النظر إلى مناطق متشابهة في كلا إصدارَي الصورة، حتى لا يتشتت تركيزه لمجرد أن المظهر تغيّر قليلًا. تدفع إشارات تدريب إضافية المسار ذي التردد العالي ليتطابق بشكل أفضل مع كثافات الحشود الحقيقية والمسار ذي التردد المنخفض ليتطابق بشكل أفضل مع مناطق الحشد مقابل الخلفية.
ماذا تعني النتائج على أرض الواقع
يختبر الباحثون SinCount على عدة مجموعات بيانات عامة صعبة، بما في ذلك ملاعب مكتظة، وشوارع مدن، ومشاهد ليلية بها ضبابية وضعف إضاءة. دون أن يرى أمثلة من المشاهد الهدف أثناء التدريب، تُطابق SinCount أو تتفوق على طرق التعميم أحادي النطاق الحالية، وغالبًا ما تكون أسرع في المعالجة لأنها تتجنب وحدات الذاكرة الثقيلة المستخدمة في التصاميم السابقة. بعبارات بسيطة، يتعلم النظام عد الحشود في بيئة واحدة ثم يؤدي أداءً جيدًا عندما يُنقل إلى العديد من البيئات الأخرى التي لم يسبق له رؤيتها. بالنسبة لمسؤولي المدن ومنظمي الفعاليات ومسؤولي السلامة، يشير ذلك إلى أدوات مراقبة الحشود التي تكون أكثر مرونة أمام الكاميرات الجديدة، والمواقع الجديدة، وتغيرات الطقس — مما يساعد على توفير أعداد موثوقة من الأشخاص عندما تكون الحاجة ماسة.
الاستشهاد: Song, L., Li, T., Cai, Z. et al. Fourier transform-based single domain generalization for crowd counting. Sci Rep 16, 11744 (2026). https://doi.org/10.1038/s41598-026-46286-3
الكلمات المفتاحية: عد الحشود, تعميم النطاق, تردد فورييه, رؤية حاسوبية, خرائط الكثافة