Clear Sky Science · ar

خوارزمية تجزئة دلالية للأجسام ذات الخلفية الديناميكية تعتمد على تعاون الشبكة التنافسية التوليدية والمحولات

2026-03-08 · العودة إلى الفهرس

رؤية واضحة في عالم متحرك

من السيارات ذاتية القيادة إلى كاميرات المراقبة الذكية، باتت الآلات بحاجة متزايدة لفهم ما يحدث في مشاهد مزدحمة وسريعة التغير. ومع ذلك، فإن التمييز بين شخص متحرك ومصابيح أمامية تومض أو أشجار تتأرجح أو ضباب الحركة يمثل مهمة صعبة للحاسوب. تقدم هذه الدراسة طريقة جديدة للذكاء الاصطناعي لاستخراج الأجسام المتحركة في فيديوهات معقدة، حتى عندما تكون الخلفية نفسها في حالة حركة أو الإضاءة ضعيفة أو الصورة مشوشة.

لماذا تضل المشاهد المزدحمة الآلات

عالمنا نادرًا ما يكون ساكنًا. السيارات تمر تحت أضواء الشوارع المتقطعة، والحشود تتشابك فيما بينها، والمطر أو الظلال يعيدان تشكيل ما تلتقطه الكاميرا باستمرار. صُممت أنظمة رؤية الحاسوب التقليدية لمشاهد أكثر هدوءًا حيث لا تتغير الخلفية كثيرًا. في المشاهد الصاخبة، غالبًا ما تخلط بين الأجسام المتحركة والأنماط الخلفية المتحركة، أو تفقد تتبع الأشخاص والمركبات عند تغيُّر الإضاءة فجأة أو عند تحرك الكاميرا نفسها. تقيد هذه الضعفات سلامة القيادة الذاتية وموثوقية المراقبة الذكية في المواقف التي تكون فيها الدقة مهمة للغاية.

فكرتان قويتان تعملان معًا

لتجاوز هذه المشكلات، يجمع المؤلفون بين فكرتين مؤثرتين في الذكاء الاصطناعي داخل نظام واحد مترابط بإحكام: أحدهما متخصص في توليد صور واقعية، والآخر بارع في فهم العلاقات طويلة المدى في البيانات. الأول، زوج المولّد والمميّز، يتعلم توليف نسخ متعددة من المشهد نفسه بإضاءات مختلفة، وضباب حركة، وحركة خلفية متغيرة. يبني هذا ميدان تدريب غني يتدرَّب فيه النموذج مرارًا على التعامل مع ظروف بصرية صعبة. الثاني، وحدة تعتمد على المحول، تطالع الصورة بأكملها دفعة واحدة وتستخدم آلية انتباه داخلية لتحديد المناطق الأكثر أهمية، مما يسمح بربط أجزاء بعيدة من المشهد وتمييز المقدمة عن خلفية مضطربة بشكل أفضل.

موازنة ضوضاء الخلفية وتفاصيل الأجسام

ابتكار رئيسي هو كيفية قرار النظام، لكل منطقة في الصورة، مدى الثقة في نمذجة الخلفية مقابل الفهم المركز على الأجسام. بدلًا من مجرد تكديس وحدة تلو الأخرى، يصمم المؤلفون خطوة دمج «مقيدة» تمزج ثلاث مصادر للمعلومات: الخلفية الديناميكية المحاكاة، والإشارات البصرية الأساسية من مرشحات الصورة التقليدية، والخريطة الدلالية عالية المستوى التي ينتجها المحول. يعمل بوَّابة متعلمة على تحويل التركيز بسلاسة نحو نموذج الخلفية حيث تكون المشتتات أقوى، ونحو الميزات المركزة على الأجسام قرب حواف السيارات أو الأشخاص أو الأهداف الأخرى. تشجّع قواعد إضافية الخلفيات المولّدة على البقاء متسقة دلاليًا مع الخلفيات الحقيقية، بحيث لا تكون بيانات التدريب مقنعة بصريًا فحسب بل ذات معنى أيضًا للمهمة.

متابعة الحركة عبر الزمن

الفيديو الحقيقي ليس مجرد مجموعة من الإطارات المنفصلة؛ فالحركة تحمل دلائل حاسمة. لالتقاط ذلك، يتضمن النظام وحدة انتباه زمنية تُدخل معلومات الحركة المشتقة من التدفق البصري، وهي طريقة لتقدير كيفية تحرك البكسلات من إطار لآخر. تساعد هذه الوحدة النموذج على تتبع الأجسام أثناء تحركها أو اختفائها جزئيًا أو ظهورها مجددًا، حفاظًا على حدودها ثابتة عبر إطارات متعددة. يختبر المؤلفون نهجهم على مشاهد افتراضية مُتحكم فيها بعناية—حيث يمكن ضبط الإضاءة وسرعة الحركة وفوضى الخلفية—وعلى مجموعة بيانات KITTI المعروفة للقيادة، التي تحتوي على لقطات طرق حقيقية وتحدياتها.

ماذا تعني النتائج على أرض الواقع

يقدّم النظام المشترك فصلًا أوضح وأكثر موثوقية للأجسام المتحركة عن محيطها مقارنة بعدة طرق مستخدمة على نطاق واسع. يحقق تداخلًا متوسطًا أعلى بين مناطق الأجسام المتنبأ بها والمناطق الحقيقية، ويظل أكثر استقرارًا عبر مجموعة متنوعة من ظروف الإضاءة والحركة، ويتقلب أقل مع مرور الوقت. يؤدي إزالة أي مكوّن رئيسي—المولّد الصوري، أو المحول، أو وحدات الدمج والزمن—إلى إضعاف الأداء بشكل ملحوظ، مما يؤكد أن المكاسب ناتجة عن تعاونها وليس عن حيلة واحدة. على الرغم من أن هذا التصميم الأثرى يتطلب حسابات أكثر، فإنه يعمل بالفعل بسرعة كافية للعديد من الاستخدامات الزمن الحقيقي مع عتاد رسومي حديث. من الناحية العملية، تُظهر الدراسة أن تعليم الآلات أن تتخيل المشاهد الصعبة وأن تولي اهتمامًا انتقائيًا ومراعٍ للزمن يمكّنها من «الرؤية» بطريقة أقرب إلى رؤيتنا، مما يحسن سلامة وموثوقية الأنظمة التي يجب أن تفسّر عالمًا في حركة دائمة.

الاستشهاد: Li, Y., Luo, Z., Chen, T. et al. Dynamic background motion object semantic segmentation algorithm based on generative adversarial network and transformer collaboration. Sci Rep 16, 12626 (2026). https://doi.org/10.1038/s41598-026-39249-1

الكلمات المفتاحية: فهم المشاهد الديناميكية, اكتشاف الأجسام المتحركة, رؤية القيادة الذاتية, التجزئة الدلالية للفيديو, متانة رؤية الحاسوب