Clear Sky Science · ar
WMambaFuse: شبكة دمج صور تحت الحمراء والمرئية تعتمد على ويفلت مامبا
رؤية ليلية أوضح لعالم مليء بالضوضاء
عندما تنظر الكاميرات إلى نفس المشهد في الضوء العادي وفي نطاق الأشعة تحت الحمراء، تكشف كل رؤية حقائق مختلفة: واحدة تظهر تفاصيل حادة وألواناً طبيعية، والأخرى تبرز الحرارة والأجسام المخفية في الظلام. يقدم هذا البحث WMambaFuse، طريقة رؤية حاسوبية جديدة تدمج هذين المنظورين في صورة واحدة أوضح. الهدف بسيط لكنه قوي: مساعدة البشر والآلات على الرؤية بشكل أكثر موثوقية في الليل، وفي الطقس السيئ، وفي البيئات المعقدة عن طريق الجمع بين أفضل ما في كلتا صيغتي الصورة.

لماذا العينان أفضل من واحدة
تلتقط كاميرات الضوء المرئي القوام الدقيق، والحواف الحادة، والألوان الطبيعية، لكنها تتعثر في الإضاءة المنخفضة أو الضباب أو الوهج. كاميرات الأشعة تحت الحمراء تفعل العكس: تستشعر الحرارة ويمكنها كشف الأشخاص أو المركبات أو المعدات في الظلام، ومع ذلك تبدو صورها غالباً ضبابية وتفتقر إلى التفاصيل. وعود دمج هذين المصدرين بتقديم أفضل ما في العالمين، لكن تحقيق توازن جيد يعد مهمة صعبة. العديد من الأنظمة السابقة إما تركز على المزج عند مستوى البكسل في مستوى الصورة أو تعمل فقط في مجال التردد، حيث تُقسم الصور إلى أشكال粗وخريطة عامة وأنماط دقيقة. عملياً، النهوج التي تبقى في مجال واحد فقط تميل للتضحية إما بالبنية العامة أو بالتفاصيل الحساسة، مما يؤدي إلى فقدان الحواف أو قوام باهت أو نتائج غير مستقرة في المشاهد المعقدة.
محرك ثلاثي الأجزاء للرؤية الموسعة
يتعامل WMambaFuse مع هذا التحدي بتصميم متدرج بعناية: مشفر، وحدة دمج، ومُفكك ترميز. يستخدم المشفر Transformer «مشبك نافذ» حديثاً للنظر إلى المشهد على مقاييس متعددة، ملتقطاً كل من القوام القريبة والسياق الأوسع. فكر فيه كواجهة ذكية تتعلم كيف تمثل الميزات المهمة لكل صورة دخل دون قواعد مكتوبة يدوياً. ثم يعيد المفكك بناء الصورة المدمجة النهائية باستخدام بنية متكررة، مما يساعد على الحفاظ على اتساق الميزات عبر المقاييس وتجنب فقدان التفاصيل أثناء تدفق المعلومات عبر الشبكة. تعمل هاتان الجزئتان معاً كعين ومخ مدرَّبان بدرجة عالية تحضّران وتعيدان بناء المعلومة البصرية.
دمج المكان والتفصيل في آن واحد
الابتكار الأساسي يكمن في وحدة الدمج، التي تفصل صراحةً بين «أين الأشياء موجودة» و«مقدار التفاصيل». فرع واحد، يُسمى وحدة الانتباه المكاني، ينظر مباشرة إلى ميزات الصورة ويقرر أي المناطق من مدخلَي الأشعة تحت الحمراء والمرئي تستحق مزيداً من التركيز. يتعلم أن يبرز الأهداف الحرارية الساطعة، كالأشخاص أو المركبات، بينما يحافظ أيضاً على القوام الدقيقة من الرؤية المرئية. الفرع الثاني يعمل في مجال التردد، مفصلاً ميزات الصورة إلى طبقة أساسية ناعمة وعدة طبقات للحواف والقوام في الاتجاهات الأفقية والعمودية والقطرية. هنا، يمرر مَيكانيزم Wavelet-Mamba الجديد هذه أشرطة التفاصيل الاتجاهية عبر نموذج فضاء حالة مبسط قادر على تتبع الأنماط بعيدة المدى بكفاءة، معززاً الحواف المهمة دون إغراق الصورة بالضوضاء.

وضع المنهج للاختبار
لتقييم ما إذا كان هذا التصميم فعلاً مفيداً، درّب المؤلفون المشفر-المفكك على مجموعة صور عامة كبيرة ثم درّبوا وحدة الدمج على مشاهد مزدوجة تحت حمراء–مرئية. اختبروا WMambaFuse على ثلاث مجموعات معيارية عامة تغطي مشاهد عسكرية، طرق، وبيئات يومية، وقارنوها مع تسع طرق دمج رائدة، بما في ذلك تلك المعتمدة على المشفرات التلقائية الكلاسيكية، والشبكات التلافيفية، والـTransformers، ونماذج نمط مامبا السابقة. عبر مجموعة واسعة من المقاييس—المعلومات الكلية، التباين، حدة الحواف، والتشابه البنيوي إلى المصادر—طغت الطريقة الجديدة أو تعادلت مع المنافسين بشكل ثابت. تُظهر الأمثلة البصرية حدوداً أوضح، أهدافاً حرارية أكثر سطوعاً وكمالاً، وقوام خلفية محفوظاً بشكل أفضل، حتى في مواقف ليلية وصعبة الإضاءة.
صور مدمجة أوضح لمهام العالم الواقعي
بكلمات بسيطة، يتعلم WMambaFuse متى يثق في أنماط الحرارة ومتى يثق في تفاصيل الرؤية المرئية، ويفعل ذلك سواء في مستوى الصورة أو في طبقات التردد المخفية التي ترمز للحواف والقوام. النتيجة هي صورة مدمجة واحدة يسهل على البشر تفسيرها وأكثر موثوقية للمهام اللاحقة مثل اكتشاف الأهداف أو تتبعها. بينما يشير المؤلفون إلى أن الظروف المتطرفة، مثل الضباب الكثيف أو الأمطار الغزيرة، ما تزال تطرح أسئلة مفتوحة، تُظهر تجاربهم أن هذا التصميم المكاني–الترددي، المدعوم بنمذجة فضاء الحالة الحديثة، يمثل خطوة قوية نحو آلات تحتاج أن ترى بوضوح في الظلام.
الاستشهاد: Wang, J., Si, Y., Chen, Y. et al. WMambaFuse: an infrared and visible image fusion network based on wavelet mamba. Sci Rep 16, 14113 (2026). https://doi.org/10.1038/s41598-026-44374-y
الكلمات المفتاحية: دمج تحت الأحمر والمرئي, تصوير للرؤية الليلية, دمج الصور المعتمد على الموجات (وايفلت), نماذج الرؤية في فضاء الحالة, الرؤية الحاسوبية متعددة الوسائط