Clear Sky Science · ar

دمج الصور تحت الحمراء والمرئية بواسطة آلية انتباه مزدوج وخسارة تفاعل تكيفية

· العودة إلى الفهرس

رؤية تفوق ما تراه كاميرا واحدة

تخيل أنك تقود في ليلة ضبابية حيث تلتقط عيناك وكاميرا حرارية أجزاء مختلفة من المشهد. تُظهر إحداهما حرارة ساطعة من الأشخاص والسيارات، بينما تكشف الأخرى عن خطوط المسار والمباني واللافتات. تشرح هذه الدراسة طريقة جديدة لدمج هذين العرضين في صورة واحدة أوضح يمكن أن تساعد البشر والآلات على الرؤية بشكل أفضل في بيئات خارجية معقدة.

Figure 1. دمج المشاهد الحرارية ولقطات الكاميرا العادية في مشهد أوضح واحد لتحسين الرؤية الخارجية.
Figure 1. دمج المشاهد الحرارية ولقطات الكاميرا العادية في مشهد أوضح واحد لتحسين الرؤية الخارجية.

لماذا تهم نوعان من الصور

تلتقط كاميرات الضوء المرئي العالم بطريقة تشبه رؤيتنا، بتفاصيل حادة وملمس غني. تلتقط الكاميرات تحت الحمراء الحرارة، لذلك تكشف الأشكال المتوهجة عن محركات دافئة أو أشخاص أو حيوانات حتى في الظلام أو الضباب أو الوهج. كل عرض بمفرده غير مكتمل. يمكن أن تفقد الصور المرئية أجسامًا مهمة في الطقس السيئ أو ضعف الإضاءة، بينما غالبًا ما تبدو الصور تحت الحمراء ضبابية وتفتقر للتفاصيل الدقيقة. إن دمجهما في صورة واحدة تحافظ على كل من الملمس الحاد وإشارات الحرارة الساطعة ذو قيمة لمهام مثل المراقبة والاستشعار عن بعد والسيارات ذاتية القيادة.

تحدي مزج منظورات مختلفة

لسنوات، بنى الباحثون برامج تعلم كيف تدمج الصور تحت الحمراء والمرئية. تستخدم العديد من الطرق الحديثة التعلم العميق، حيث يحدد الحاسوب الميزات التي يجب الاحتفاظ بها وكيفية مزجها. فكرة شائعة هي الانتباه، الذي يتيح للشبكة التركيز على أهم أجزاء الصورة. لكن الأنظمة السابقة كانت إما تركز فقط على كل صورة بمفردها أو تخلطهما دون سيطرة كافية. ذلك قد يؤدي إلى طمس تفاصيل مهمة من كاميرا ما بفعل الأخرى، أو أن تصبح الصورة النهائية باهتة وأقل معلوماتية.

الانتباه في اتجاهين

يقترح المؤلفون نموذج دمج جديد مبني على فكرة الانتباه المزدوج. أولاً، تنظر الشبكة داخل كل صورة على حدة لفهم أنماطها وبُنيتها، مثل الحواف والأنسجة والأجسام الساخنة. ثم تُجري انتباهًا متقاطعًا، حيث تتفاعل الرؤيتان تحت الحمراء والمرئية وتوجّهان بعضهما البعض، بحيث تتشارك المناطق المتطابقة المعلومات المفيدة. تُعالَج هذه الخطوات باستخدام لبنة بنائية حديثة تُسمى سويِن ترانسفورمر، التي تقسم الصور إلى رقع صغيرة وتدرس كيف ترتبط المناطق البعيدة ببعضها. بعد هذا الاستخلاص ذو المرحلتين، يخلط بلوك انتباه آخر الميزات المجمعة إلى تمثيل واحد، يُعاد تحويله إلى صورة.

Figure 2. مزج تدريجي لمناطق الحرارة والتفاصيل بحيث يقود كل تصوير حيث يكون أكثر إفادة.
Figure 2. مزج تدريجي لمناطق الحرارة والتفاصيل بحيث يقود كل تصوير حيث يكون أكثر إفادة.

ترك البيانات تحدد من يقود

فكرة رئيسية في هذا العمل هي أن التوازن بين الكاميرتين يجب أن يتغير من مكان لآخر في الصورة. في بعض المناطق، تكون الأشكال الحرارية أكثر أهمية، مثل شخص يقف أمام خلفية مزدحمة. في مناطق أخرى، تكون الملمس المرئي أهم، مثل علامات الطريق أو حواف المباني. يصمم المؤلفون قاعدة تدريب تكيفية تقيس مدى النشاط البصري لكل كاميرا في كل رقعة صغيرة من الصورة، ثم تغيّر تلقائيًا قوة تأثير تلك الرقعة على عملية التعلم. يرشد هذا الشبكة لتسليط الضوء على المصدر الأكثر إفادة محليًا، بدلاً من إجبار وزن متساوٍ في كل مكان.

مدى أداء الطريقة الجديدة

يختبر الفريق طريقتهم على مجموعتين معياريتين من المشاهد الخارجية التي تضم طرقًا ومركبات وأشخاصًا وخلفيات معقدة. يقارنونها مع سبع تقنيات دمج رائدة مأخوذة من عائلات مختلفة من التعلم العميق. تظهر الفحوصات البصرية والدرجات العددية أن النهج الجديد ينتج صورًا ذات تباين أعلى، وحواف أكثر حدة، وتفاصيل أغنى مع الحفاظ على الأهداف الحرارية الأساسية. تؤكد اختبارات الاستبعاد أو التعديل الجزئية للنموذج أن كلًا من تصميم الانتباه المتقاطع وقاعدة التدريب التكيفية تلعبان أدوارًا حاسمة في التحسينات الملحوظة.

ماذا يعني هذا لرؤية العالم الحقيقي

بالنسبة للقارئ العادي، الخلاصة بسيطة. من خلال تعليم الحاسوب ألا يكتفي بمشاهدة كاميرتين فحسب، بل أن يدير كيف تؤثران على بعضهما البعض بطريقة مدروسة ومبنية على الموقع، تنتج هذه الطريقة صورًا مدمجة أوضح من الأساليب السابقة. يمكن أن يسهل ذلك على البشر والأنظمة الآلية رصد الأجسام المهمة في ظروف صعبة، وقد تساعد نفس الأفكار أدوات مستقبلية تدمج أنواعًا أخرى من بيانات المستشعرات.

الاستشهاد: Wang, Z., Hu, Y. & Zhang, B. Infrared-visible image fusion with double-attention mechanism and adaptive interaction loss. Sci Rep 16, 15941 (2026). https://doi.org/10.1038/s41598-026-45802-9

الكلمات المفتاحية: دمج الصور, التصوير تحت الحمراء, رؤية الحاسوب, شبكات الانتباه, القيادة الذاتية