Clear Sky Science · ar
الحارس الصوتي: تصنيف هرمي لأصوات الخطوات باستخدام تمثيلات ميزات صوتية دقيقة و粗粗 (خشنة) للمراقبة التكتيكية
الاستماع إلى خطوات مخفية
تخيل اكتشاف أشخاص يتحركون عبر غابة مظلمة أو على طول حدود نائية دون وجود أي كاميرا — مجرّد الاستماع إلى خطواتهم. تستكشف هذه الدراسة كيف يمكن تحويل الأصوات الدقيقة الناتجة عن المشي إلى أداة إنذار مبكر قوية للجنود والشرطة والمحققين، لا سيما في الأماكن التي تفشل فيها الكاميرات أو تكون الطاقة محدودة.

لماذا الكاميرات ليست كافية
تعتمد أنظمة الأمن الحديثة كثيرًا على المراقبة بالفيديو، لكن لدى الكاميرات قيود واضحة: فهي تحتاج إلى خط رؤية مباشر، تستهلك طاقة كبيرة، وقد يصعب نشرها بسرعة في تضاريس وعرة أو معادية. قد تعمل نقاط التفتيش المتنقلة ودوريات الحدود وفرق مكافحة الإرهاب ليلاً، تحت غطاء نباتي كثيف، أو في مناطق جبلية حيث يكون تركيب وصيانة شبكات الكاميرات غير عملي. في هذه الحالات يصبح الصوت بديلاً جذابًا. الميكروفونات خفيفة الوزن، أرخص في الاستهلاك، ويمكنها «السمع حول الزوايا» والتقاط الأشخاص قبل أن يصبحوا مرئيين. على الرغم من أن الخطوات أصوات هادئة نسبيًا، إلا أنها تبرز في العديد من المواقف التكتيكية حيث يكون ضجيج الخلفية منخفضًا، ما يجعلها إشارة واعدة للإنذار المبكر وإعادة بناء الوقائع للأغراض الجنائية.
بناء مكتبة خطوات واقعية
لتحويل هذه الفكرة إلى نظام عامل، واجه الباحثون أولًا مشكلة أساسية: لم تكن هناك مجموعة مناسبة من تسجيلات خطوات العالم الحقيقي. تتضمن قواعد البيانات الصوتية الموجودة بضع تسجيلات لخطوات تستخدم عادة للتعرّف العام على الأصوات أو للتعرف على الهوية، وغالبًا ما تسجل في ظروف مخبرية محكومة. عادة لا توضح ما إذا كان الصوت من غابة أم طريق أم داخل مبنى، ولا ما إذا كان مصدره شخص واحد أم عدة أشخاص. لذا أنشأ الفريق موردًا جديدًا اسمه مجموعة بيانات EWFootstep 1.0. تحتوي على 1650 مقطعًا صوتيًا من 176 متطوعًا يمشون بشكل طبيعي عبر غابات وطرق ومساحات داخلية في ثلاث مناطق مختلفة من الهند. تلتقط التسجيلات مزيجًا من أحذية بنعال ناعمة وصلبة، وتضاريس مختلفة، وظروف ميدانية واقعية مثل وضع الميكروفون غير المتساوي. يتضمن كل مقطع ما لا يقل عن 15 خطوة وموسومًا بنوع البيئة وبما إذا كان الصوت صادرًا عن شخص واحد أم مجموعة.
تعليم آلة على السمع مثل الكشاف
مع توافر مجموعة البيانات هذه، صمم المؤلفون نظام استماع يحاكي كيفية تفكير الكشاف الماهر في الصوت. بدلًا من التعامل مع كل المهام على أنها متساوية، يقرر نموذجهم «متعدد المهام والهرمي» أولًا أين يحدث الصوت — غابة أو طريق أو داخل مبنى — ثم، بناءً على هذا السياق، يقدّر ما إذا كان المصدر شخصًا واحدًا أم أكثر من شخص. يتم تحويل الصوت إلى مخططات طيفية ملونة تظهر كيف تتوزع الطاقة عبر الترددات مع الزمن. تكتشف طبقات تلافيفية مجموعة من التفاصيل الدقيقة المرتبطة بالأسطح والأحذية، مثل طحن الأوراق أو ارتطام الأحذية بالخرسانة. تنتقل هذه الميزات بعد ذلك إلى وحدة محولة (ترانسفورمر)، وهي محرك معالجة تسلسلي حديث يفحص الأنماط عبر خطوات زمنية متعددة — الإيقاع والفواصل والاصطدامات المتكررة — بدلًا من الأصوات المعزولة. يساعد الترميز الموضعي النموذج في تتبّع الترتيب الزمني، وهو أمر أساسي للتعرّف على أنماط المشي.

ما مدى فعالية الحارس الصوتي؟
قارن الباحثون نموذجهم الهرمي بنُهج أبسط، مثل مصنّف واحد شامل وتصميم متعدد المهام قياسي حيث يتنبأ النظام بالبيئة والعدد بشكل مستقل. كما اختبروا نسخًا أزالت مكونات رئيسية مثل الطبقات التلافيفية أو وحدة الترانسفورمر. عمومًا، أداء التصميم الكامل الذي يضم كلا الوحدتين والترميز الموضعي كان الأفضل. على مجموعة بيانات EWFootstep 1.0، حدد البيئة بشكل صحيح بنحو 96 في المئة من الحالات وعدد الأشخاص بدقة مشابهة — وهو تحسن كبير مقارنة بالمستمعين البشريين المدربين الذين تخلّف أداؤهم بنحو 25 إلى 30 نقطة مئوية. أظهرت تجارب إضافية على مجموعة بيانات لأصوات السعال أن نفس البنية تعمم جيدًا إلى ما وراء أصوات الخطوات، مما يوحي بأنها قادرة على التعامل مع أنواع مختلفة من الصوت اليومي.
من ساحة المعركة إلى مسرح الجريمة
الخلاصة لغير المتخصصين هي أن الأصوات اليومية الخافتة مثل خطوات الأرجل تحمل معلومات أكثر بكثير مما نلاحظه عادة. من خلال الجمع بين مجموعات بيانات كبيرة وواقعية وأدوات متقدمة لاكتشاف الأنماط، يبيّن المؤلفون أن نظامًا مدمجًا يمكنه أن يحدّد بشكل موثوق نوع المكان الذي يستمع إليه وعدد الأشخاص المتواجدين، في وقت قريب من الزمن الحقيقي ودون كاميرات. قد يساعد هذا «الحارس الصوتي» في حماية الدوريات والمرافق النائية، وقد تسهم قدرته على تفكيك أنماط الصوت الدقيقة أيضًا في الأدلة الصوتية، مثل إعادة بناء تحركات في مسرح جريمة عندما يكون الفيديو غير متاح أو غير موثوق.
الاستشهاد: Agrahri, A., Maurya, C.K., Tiwari, R.S. et al. Acoustic sentinel: hierarchical classification of footstep sound using fine and coarse-grain acoustic feature representations for tactical surveillance. Sci Rep 16, 5635 (2026). https://doi.org/10.1038/s41598-026-35756-3
الكلمات المفتاحية: المراقبة الصوتية, كشف الخطوات, أنظمة الإنذار المبكر, التعلم العميق للصوت, الأمن التكتيكي