Clear Sky Science · ar
معلم متوسط التباين المعتمد على النماذج الأولية للكشف عن الأجسام بتكيّف نطاق غير خاضع للإشراف
تعليم الحواسيب اكتشاف الأجسام في بيئات جديدة
تستطيع أنظمة الذكاء الاصطناعي الحديثة اكتشاف السيارات والأشخاص ولافتات الشوارع في الصور بدقة مثيرة للإعجاب — حتى يتغير المشهد. فآلات اكتُسبت عليها مهارات الكشف في شوارع مشمسة قد تتعثر في الضباب أو أثناء الليل أو في الأعمال الفنية المبتكرة. تقدّم هذه الورقة طريقة جديدة لـ "تعليم المعلم" داخل هذه الأنظمة حتى تتمكن من التكيّف مع ظروف جديدة دون الحاجة إلى مربعات موشومة مرسومة يدويًا من البشر.

لماذا يواجه كاشفوا الأجسام صعوبات عند تغير العالم
يعتمد كشف الأجسام على مجموعات ضخمة من الصور المعلّمة حيث تُحاط كل سيارة أو حافلة أو دراجة بمربع بعناية. لكن كاميرات العالم الحقيقي نادرًا ما تطابق ظروف التدريب تلك. فالطقس المختلف أو الإضاءة أو أنواع الكاميرات يغيّر مظهر الأجسام — وهي ظاهرة تُعرف باسم تحوّل النطاق. وعندما يحدث ذلك، قد يفشل كاشف مدرّب على نطاق واحد، مثل مشاهد حركة المرور الصافية في وضح النهار، على نطاق آخر مثل الطرق السريعة الضبابية أو الرحلات الليلية. وبما أن جمع تسميات جديدة لكل حالة مكلف، يسعى الباحثون إلى طرق تُكيّف الكواشف باستخدام بيانات غير معلّمة فقط من النطاق الجديد.
نظام يُعلّم نفسه مع مرشد مضمّن
استراتيجية شائعة تسمح للنموذج بتعليم نفسه. شبكة "المعلم"، المبنية كنسخة ملسّاة من شبكة "الطالب"، تتنبأ بمربعات على صور الهدف غير المعلّمة؛ ثم تُستخدم هذه التنبؤات، المسماة بالتسميات الافتراضية، لتدريب الطالب. مع مرور الوقت، يتحسّن الطالب ويتمّ تحديث المعلم كمعدّل متحرك لأوزان الطالب. ومع ذلك، إذا كانت التسميات الافتراضية المبكرة خاطئة — مثل فقدان الأجسام في ضباب كثيف — يمكن أن تتراكم الأخطاء. يبيّن المؤلفون أن ثلاث أفكار يمكن جمعها لاستقرار هذا التدريب الذاتي: إعداد معلم متوسط، والتعلّم التبايني (الذي يقرب الميزات المرتبطة ويفصّل غير المرتبطة)، و"نماذج أولية" مدمجة تلخّص كل فئة من الأجسام.
النماذج الأولية كعلامات إرشادية في فضاء الميزات
جوهر إطار PoCoMT المقترح هو شبكة محاذاة النماذج الأولية، أو ProtoAN. بدلًا من مقارنة كل جسم بكل جسم آخر، تتعلّم ProtoAN مجموعة صغيرة من النقاط الممثلة — النماذج الأولية — لكل فئة، مثل السيارة أو المشاة. تُرسم الميزات المستخرجة من مناطق الصور إلى فضاء خاص حيث تتجمّع أمثلة الفئة نفسها من نطاقات مختلفة حول نموذجها الأولي المشترك، بينما تُبعد الفئات المختلفة عن بعضها. تُشجّع دالة خسارة تباينية هذا التجمع، داخل نطاق واحد وعبر نطاق المصدر والهدف. والأهم من ذلك، أن هذه الآلية تتعامل حتى مع الخلفية كفئة منفصلة، مما يساعد النظام على تمييز الأجسام الحقيقية عن الفوضى.

استخدام أفضل للبيانات غير المعلّمة
يحسّن PoCoMT التسميات الافتراضية للمعلم بطريقتين. أولًا، يدفع هدف "تعظيم المعلومات" التنبؤات على صور الهدف إلى أن تكون واثقة لكل جسم ومتنوعة عبر الفئات، متجنّبًا السلوك التافه المتمثل في وسم كل شيء بنفس الفئة. ثانيًا، تعمل ProtoAN على تنقية التسميات الافتراضية بمقارنة الميزات مع النماذج الأولية بدلًا من الوثوق بالتنبؤات الخام. إذا كانت الفئة المتوقعة لمنطقة ما لا تتطابق مع أقرب نموذج أولي، يمكن تعديل الوسم. هذا يجعل النظام أكثر تحمّلًا للضوضاء: حتى عندما عمد المؤلفون إلى تلف العديد من التسميات الافتراضية أثناء التدريب، تدهور أداء PoCoMT بشكل أكثر سلاسة مقارنة بالطرق المنافسة.
كواشف أقوى للمشاهد الواقعية الصعبة
عُدّ PoCoMT على مجموعة واسعة من مقاييس الأداء — بما في ذلك الانتقال من شوارع صافية إلى ضبابية، ومن بيانات صناعية إلى حقيقية لحركة المرور، ومن قيادة نهارية إلى شفق، ومن صور واقعية إلى فنية — وتفوّق باستمرار على تقنيات التكيّف غير الخاضع للإشراف القائمة، غالبًا بعدة نقاط مئوية في دقة الكشف. وفي بعض الحالات تفوّق حتى على نماذج مدرّبة مباشرة على بيانات الهدف المعلّمة، بفضل قدرته على استغلال كلٍ من صور المصدر المعلّمة وصور الهدف غير المعلّمة المتاحة بكثرة. للمهتمين غير المتخصصين، الرسالة واضحة: عبر تمكين كاشف الأجسام من تنظيم "علاماته" الداخلية لكل فئة وبحسن توجيه تبادل المعلومات بين المعلم والطالب، يجعل هذا النهج نظم الرؤية القائمة على الذكاء الاصطناعي أكثر صلابة عندما يبدو العالم مختلفًا عن بيانات تدريبها.
الاستشهاد: Cao, Q., Tao, J., Dan, Y. et al. Prototype-oriented contrastive mean-teacher for unsupervised domain adaptive object detection. Sci Rep 16, 10869 (2026). https://doi.org/10.1038/s41598-026-44991-7
الكلمات المفتاحية: التكيّف غير الخاضع للإشراف للنطاق, كشف الأجسام, التدريب الذاتي, التعلّم التبايني, تعلّم النماذج الأولية