Clear Sky Science · ar

هيكلية مُحوِّل هرمية متعددة المقاييس محسّنة بالانتباه الهجين لاستعادة دقة الصور

· العودة إلى الفهرس

صور أكثر حدة من بدايات ضبابية

من صور الأقمار الصناعية للمدن إلى صور الرنين المغناطيسي ولقطات الهواتف الذكية، تبدأ العديد من الصور ضبابية أكثر مما نرغب. استعادة دقة الصورة هي مجموعة تقنيات تحاول إعادة بناء صورة حادة ومفصّلة من نسخة منخفضة الدقة. يقدم هذا البحث طريقة جديدة للقيام بذلك، باستخدام مزيج ذكي من أدوات الذكاء الاصطناعي الحديثة لاسترجاع الخامات الدقيقة والحواف التي تميل الطرق الأقدم إلى تمويهها أو فقدانها.

لماذا جعل الصور أكثر حدة صعب للغاية

تحويل صورة ضبابية إلى صورة حادة يبدو بسيطًا، لكنه مشكلة عكسية كلاسيكية: يمكن لعدة مشاهد عالية الدقة أن تُنتج نفس الصورة الضبابية. التحدي هو تخمين النسخة الأقرب إلى الواقع. الحيل البسيطة مثل الاستيفاء تُكبِّر الصور بسرعة لكنها غالبًا ما تنتج نتائج ناعمة ومصطنعة المظهر. النماذج الرياضية التقليدية قد تؤدي بشكل أفضل، لكنها بطيئة وتواجه صعوبة مع زيادة عامل التكبير. حتى أنظمة التعلّم العميق القوية، سواء القائمة على الشبكات الالتفافية أو نماذج المحوّل الأحدث، لا تزال تميل إلى تفويت الخطوط الدقيقة والخامات والأنماط المتكررة، خاصة في مشاهد معقدة مثل كتلات المدن الكثيفة أو الأعمال الكوميدية الرسومية.

خط أنابيب استعادة دقة من ثلاث مراحل

لمعالجة هذه النواقص، يقترح المؤلفون بنية المحوّل الهرمية متعددة المقاييس (HMT). تعالج الصورة في ثلاث مراحل رئيسية. أولًا، يلتقط مُستخرج السمات الضحل الأنماط الأساسية مثل الحواف والخامات البسيطة، بينما يحافظ خطوة التكبير القياسية على البنية الأصلية كدليل.

Figure 1
Figure 1.
بعد ذلك، تستخدم مرحلة استخلاص السمات العميقة تصميم مشفَّر–مفكك تشبه السلم يتحرك للأعلى والأسفل عبر أربعة مستويات من الدقة. أثناء تقلص الصورة وتوسيعها، يتعلم الشبك الربط بين الهيكل العالمي الخشن والتفاصيل المحلية الدقيقة. أخيرًا، تجمع وحدة إعادة الإعمار بين المعلومات الضحلة والعميقة وتُحسِّن النتيجة، بإضافة التفاصيل المفقودة فقط بدل محاولة إعادة إنشاء الصورة بأكملها من الصفر.

مزج الأنماط العالمية مع التفاصيل المحلية

جوهر هذا النظام هو آلية انتباه هجينة تنظر إلى الصورة بطريقتين تكاملية. يعمل فرع واحد في مجال الترددات، باستخدام تحويل فورييه لتحليل الصورة من حيث الأنماط العالمية مثل مناطق اللون الواسعة والهياكل المتكررة. بينما يوسّع الفرع الآخر فكرة نمذجة "حالة-الزمن" الحديثة بحيث يمكنه المسح عبر الصورة في اتجاهات متعددة، ملتقطًا العلاقات بعيدة المدى دون التكلفة الباهظة للاهتمام الذاتي التقليدي. من خلال دمج هاتين الرؤيتين، يمكن للشبكة فهم كل من التخطيط العام للمشهد والعلاقات الدقيقة بين بكسلات بعيدة لكنها مترابطة، مع إبقاء الحسابات ضمن حدود معقولة.

التكيّف مع كل صورة في وقت التشغيل

بالتوازي، يقدم النموذج انتباهًا قابلاً للتكيّف التفافياً (التفافيًّا ديناميكيًا)، يركّز جهده حيث تحتاج الصورة ذلك أكثر. يقسم قنوات السمات إلى مجموعات صغيرة ويطبق مرشحات خفيفة تعتمد على الصورة تحاكي أفضل جوانب الانتباه: تتفاعل بشكل مختلف مع كل مدخل ويمكنها ربط مناطق بعيدة عن بعضها. لأن بعض المرشحات مشتركة عبر الطبقات بينما يتكيف بعضها الآخر لكل صورة، يكتسب النظام مرونة دون زيادة كبيرة في التكلفة. ثم تستبدل وحدة الاندماج الديناميكي الاتصالات الاختصارية الجامدة التي توجد عادة في شبكات المشفّر–المفكك، مما يسمح للنموذج بتقرير مدى قوة مزج المعلومات من مقاييس وعمق مختلفة.

Figure 2
Figure 2.

كيف تعمل عمليًا؟

اختبر الباحثون طريقتهم على مجموعات صور مستخدمة على نطاق واسع، بما في ذلك الصور الطبيعية، ومشاهد المدن الغنية بالخطوط المستقيمة والنوافذ المتكررة، وصفحات المانغا عالية التباين المليئة بضربات الحبر الدقيقة. عبر عدة معايير معيارية وعوامل تكبير مختلفة، طابقت منهجيتهم أو تفوّقت باستمرار على أنظمة استعادة الدقة الرائدة، محققة درجات أعلى قليلاً على مقاييس الوضوح والتشابه البنيوي. تُظهر المقارنات البصرية أن النموذج الجديد يحافظ بشكل أفضل على الخامات الدقيقة، ويقلل التمويه حول الحواف ويتعامل مع الأنماط المتكررة المعقدة بشكل أكثر وفاءً، بينما يبقي عدد المعاملات والحسابات ضمن نطاق معقول.

صور أوضح للعديد من الاستخدامات العملية

بعبارات يومية، يقدم هذا العمل طريقة أكثر موثوقية "لملء" التفاصيل المفقودة عند التكبير في صورة. من خلال الجمع الدقيق بين تحليل النمط العالمي، والسياق الاتجاهي، والفلترة التكيفية، تنتج البنية المقترحة نتائج أكثر حدة وتماسكًا من العديد من الأدوات الموجودة. يمكن أن يفيد ذلك تطبيقات تتراوح من التخطيط الحضري ورصد الكوارث إلى التصوير الطبي والتصوير الاستهلاكي، كلما احتاجت صور أوضح بينما تتوفر بيانات منخفضة الدقة فقط.

الاستشهاد: Wang, B., Gao, R., Zhou, T. et al. Hybrid attention optimized hierarchical multiscale transformer architecture for image super-resolution. Sci Rep 16, 13655 (2026). https://doi.org/10.1038/s41598-026-44337-3

الكلمات المفتاحية: استعادة دقة الصور, التعلُّم العميق, شبكات المحوّل, آليات الانتباه, رؤية الحاسوب