Clear Sky Science · ar

الدمج بين صور الأشعة تحت الحمراء والمرئية عبر تحسين بصري وربط دلالي

· العودة إلى الفهرس

رؤية أوضح من كاميرات النهار والليل

تحمل السيارات والطائرات بدون طيار وأنظمة الأمن الحديثة غالبًا عينين مختلفتين: كاميرا عادية تلتقط اللون والملمس، وكاميرا أشعة تحت حمراء تلتقط الحرارة. لكل منهما نقاط قوة وضعف، ودمجهما في صورة واحدة واضحة أمر أصعب مما يبدو. تقدم هذه الورقة طريقة جديدة لدمج هذين المنظورين في صورة واحدة ليست أسهل للمشاهدة فحسب، بل أسهل أيضًا لفهمها من قبل برامج الحاسوب.

Figure 1
Figure 1.

لماذا العينان أفضل من عين واحدة

تلتقط كاميرات الضوء المرئي تفاصيل دقيقة مثل علامات الطرق وحواف المباني والملابس، لكنها تعاني في الليل أو في الضباب أو عندما تندمج الأشياء مع الخلفية. تقوم كاميرات الأشعة تحت الحمراء بالعكس: تبرز الأجسام الدافئة مثل الأشخاص والمركبات حتى في الظلام، لكن صورها تبدو ضبابية وتفتقر إلى التفاصيل الدقيقة. إن دمج هذين المنظورين في صورة «الأفضل من العالمين» يمكن أن يساعد في مهام تتراوح من اكتشاف المشاة في أنظمة مساعدة السائق إلى المراقبة والبحث والإنقاذ. مع ذلك، تركز العديد من طرق الدمج الحالية على ميزات سطحية فقط—بقع السطوع من الأشعة تحت الحمراء وملمس الصور المرئية—مهمِلةً المعنى الأعمق للمشهد الذي يهم الآلات الذكية.

أسلوب أذكى لمزج الصور

يقترح المؤلفون إطار عمل تعلّمًا عميقًا يعامل الدمج كأمر أكثر من مجرد تراكب بسيط. أولاً، خطوة تحسين خاصة تُضيء وتوازن الصورة المرئية، لا سيما في المشاهد منخفضة الإضاءة، حتى لا تُفقد التفاصيل القيّمة قبل بدء الدمج. ثم تعالج شبكة ثنائية المسار مدخلات الأشعة تحت الحمراء والمرئية بالتوازي. يركز أحد المسارين على الأنماط المحلية مثل الحواف والملمس، بينما ينظر الآخر إلى السياق الأوسع للمشهد. من خلال دمج هذين المسارين، تنتج المنظومة وصفًا داخليًا أغنى لما يحدث في الصور.

تعليم الشبكة ما الذي يجب أن توليه اهتمامًا

لا يكفي ببساطة استخراج العديد من الميزات؛ يجب أن تتعلم الشبكة أيها مهمة. يساعد مُكوّن «القنوات–المكانية» النموذج على إبراز المناطق وأنواع المعلومات الحاسمة، مثل المشاة أو المصابيح الأمامية الساطعة، مع إضعاف الفوضى الخلفية الأقل فائدة. بالإضافة إلى ذلك، يشجع آلية انتباه تفاعلية ثنائية النمط تياري الأشعة تحت الحمراء والمرئية على التبادل فيما بينهما. تتعلم هذه الآلية كيف تتوافق إشارات الحرارة والأنسجة البصرية عبر المشهد، ما يلتقط مفاهيم على مستوى أعلى مثل «هذه البقعة الساطعة في الأشعة تحت الحمراء تماثل ذلك الشخص في الصورة المرئية». يساعد هذا الربط الدلالي الصورة المندمجة على البقاء متسقة منطقيًا بدلًا من أن تكون مزيجًا بصريًا فقط.

Figure 2
Figure 2.

اختبار الطريقة

للتحقق مما إذا كانت الصور المندمجة ليست جذابة فحسب بل واقعية أيضًا، يضيف المؤلفون شبكة مميّزة تشبه تلك المستخدمة في الشبكات التوليدية العدائية. تتعلم هذه الشبكة الإضافية التمييز بين الصور المرئية الحقيقية وتلك المندمجة، دافعةً عملية الدمج لإنتاج مخرجات تبدو طبيعية للبشر والآلات على حد سواء. تم تدريب الطريقة واختبارها على ثلاث مجموعات تحدٍ من أزواج صور الأشعة تحت الحمراء والمرئية، تغطي طرقًا نهارية وليلية ومشاهد ذات طابع عسكري. عبر مجموعة من مقاييس الجودة القياسية، يتفوّق النهج الجديد عمومًا على عشر تقنيات دمج حالية، منتجًا صورًا ذات حواف أكثر حدة، وتباينٍ أفضل، ومحتوى أكثر إفادة.

صور أفضل لآلات أكثر أمانًا

بعيدًا عن الجودة البصرية، طرح المؤلفون سؤالًا عمليًا: هل تساعد هذه الصور المندمجة الحواسيب على اتخاذ قرارات أفضل؟ باستخدام نظام كشف أجسام شائع للعثور على المشاة، يظهرون أن صورهم المندمجة تحسّن دقة الكشف مقارنة بالصور من مستشعر واحد وطرق الدمج السابقة. بعبارات يومية، تخلق التقنية صورًا أسهل في التفسير لكل من البشر والخوارزميات، لا سيما في ظروف صعبة مثل القيادة الليلية. وبينما لا يزال النظام يحتاج إلى ضبط للاستخدام في الوقت الفعلي على الأجهزة محدودة الموارد، فإنه يمثل خطوة واعدة نحو رؤية أكثر أمانًا وموثوقية في المركبات الآلية وأنظمة المراقبة والتقنيات الأخرى التي يجب أن ترى بوضوح عندما يكون الأمر بالغ الأهمية.

الاستشهاد: Yang, Y., Li, Y., Li, J. et al. Infrared and visible image fusion via visual enhancement and semantic coupling. Sci Rep 16, 5666 (2026). https://doi.org/10.1038/s41598-026-35763-4

الكلمات المفتاحية: دمج الصور, التصوير بالأشعة تحت الحمراء, الرؤية في الإضاءة المنخفضة, التعلّم العميق, كشف الأجسام