Clear Sky Science · ar
M3SFormer: محوّل متعدد المراحل مدمج بين الدلالة والنمط لإصلاح صور الجداريات
إعادة إحياء الفن الجدارية الباهت
عبر المعابد والكهوف في الصين، تتفكك الجداريات واللوحات اللفّافية القديمة تدريجيًا—يتقشر الطلاء، تختفي الوجوه، وتضيع مشاهد كاملة بمرور الزمن. يعتمد المحافظون الآن بشكل متزايد على الأدوات الرقمية، سواء لدراسة هذه الأعمال بأمان أو لتخيل كيف بدت في الأصل. تقدم هذه الورقة نظام ذكاء اصطناعي جديدًا باسم M3SFormer، مصممًا خصيصًا لـ "استكمال" الجداريات واللوحات التقليدية التالفة، بملء المناطق المفقودة مع الحفاظ على البنية الأصلية والألوان والأسلوب الفني بأمانة.

لماذا يصعب ترميم الجداريات القديمة
ترميم لوحات الحوائط التاريخية أكثر تعقيدًا بكثير من سد خدش في صورة عائلية. غالبًا ما تحتوي الجداريات على أنماط كثيفة، ولمسات فرشاة دقيقة، وحدود لونية مفاجئة بين الشخصيات والملابس والخلفية. تعمل طرق التعلم العميق السابقة، خاصة المبنية على شبكات الالتفاف التقليدية، جيدًا للخدوش الصغيرة لكنها تتعثر عندما تكون أجزاء كبيرة مفقودة. قد تُطمس خطوط هامة، أو تُختلق أشكال تتصادم مع الصور المحيطة، أو تُسوى التباينات الدرامية التي تمنح الجداريات طابعها. تزيل مقاربات أخرى معلومات الصورة بشكل مفرط، مستقاةً أدق التفاصيل عالية التردد—الشقوق الدقيقة، خيوط الشعر، نسيج الأقمشة—التي يهتم بها الحافظون أكثر من غيرها.
خط سير ترميم رقمي من ثلاث مراحل
يتعامل M3SFormer مع هذه التحديات عبر خط سير متعدد المراحل من الخشن إلى الدقيق. أولاً، خطوة استدلال البنية العالمية تقسم الصورة إلى رقع صغيرة وتستخدم محوّلًا—وهو نموذج طُوّر في الأصل للغة—لفهم كيفية ارتباط أجزاء الجدارية البعيدة ببعضها. من خلال نمذجة الاتصالات بعيدة المدى دون فقدان المعلومات المعتاد الناتج عن التكميم القاسي، يبني هذا الطور مخططًا عالميًا مفصَّلًا لبنية الجدارية. بعد ذلك، يجلب طور التناسق الدلالي–الأسلوبي نوعين من التوجيه عالي المستوى: يقسم الصورة إلى مناطق ذات معنى (مثل الوجوه، العباءات، أو الخلفية) ويستخدم شبكة مُدربة مسبقًا لتعلّم القوام والألوان المميزة لكل منطقة. أخيرًا، يعامل طور التنقيح الموجَّه بتدفق الاستعادة كعملية تطور تدريجية، مستخدمًا «حقل سرعة» متعلَّمًا لتحريك التخمين الأولي نحو نتيجة نهائية متماسكة بصريًا عبر عدة خطوات صغيرة.

الحفاظ على الانسجام بين البنية والأسلوب
فكرة مركزية في العمل أن المحتوى والأسلوب يجب أن يُعالَجا معًا دون خلط بينهما. يحدد المكوّن الدلالي للنموذج، المستند إلى نظام تجزئة قوي معروف باسم Mask2Former، للمشبكة أين تبدأ العناصر المختلفة وتنتهي في المشهد. وعلى هذه القاعدة، يقيس المكوّن الأسلوبي مدى تقارب المناطق المستعادة مع الأصل في كل منطقة دلالية، باستخدام مقارنة متعددة الطبقات لأنماط السمات (عبر مصفوفات غرام) عبر مقاييس مختلفة. يسمح هذا للنظام بأن يتعامل مع وجه شخصية بشكل مختلف عن عباءة منقوشة أو سماء غائمة، بدلاً من تطبيق قاعدة أسلوبية عالمية تمحو الاختلافات المحلية. في طور التنقيح، تعمل الأقنعة الدلالية كحواجز واقية لحقل التدفق، مضمونةً أن تتطور البكسلات المملوءة بطرق تبقى متسقة مع كل من البنية والأسلوب.
اختبار الطريقة
لمعرفة مدى كفاءة M3SFormer في بيئات واقعية، جمع المؤلفون مجموعتين كبيرتين من البيانات: واحدة لجداريات صينية من عدة مناطق وأخرى للوحات مناظر طبيعية تقليدية. لمحاكاة التلف استخدموا أقنعة مستوحاة من الشقوق والقطع المفقودة الحقيقية، ثم قارنوا طريقتهم بسبعة بدائل متقدمة، شاملةً أنظمة مبنية على المحوّل والانتشار. عبر مقاييس معيارية لجودة الصورة والتشابه البيني والواقعية الإدراكية، تفوّق M3SFormer باستمرار، خصوصًا عندما كانت المنطقة التالفة كبيرة ومعقَّدة. تُظهر المقارنات البصرية أنه يتجنب الطمس والبقع اللونية الغريبة والبقع الضوضائية التي تعاني منها طرق كثيرة منافسة، وفي الوقت نفسه يعمل بسرعة عملية للاستخدام الحقيقي.
الحدود والدروس والآفاق المستقبلية
رغم نقاط القوة، لا يعد M3SFormer علاجًا سحريًا شاملًا. عند مواجهة مناطق مفقودة كبيرة جدًا أو تصميمات شديدة التعقيد، قد يظل يُنتج تفاصيل تُناقض الواقع التاريخي—وهو تحذير مهم للمحافظين الذين يجب أن يحافظوا دائمًا على الفاصل بين إعادة البناء المعقولة والتكهن. يقترح المؤلفون أن النسخ المستقبلية ينبغي أن تُدخِل موجهات صريحة، مثل الرسومات التخطيطية أو أوصاف نصية قصيرة، لربط خيال النموذج بالواقع. حتى مع هذه التحفظات، يقدم النهج مجموعة أدوات قوية للمتاحف والباحثين: وسيلة لتوليد ترميمات رقمية مفصّلة ومطابقة للأسلوب، واستكشاف ترميمات "ماذا لو" بشكل غير تدخلي، والمساعدة في ضمان أن الكنوز الثقافية الهشة يمكن دراستها وتقديرها طويلًا بعد تلاشي الأصباغ الأصلية.
الاستشهاد: Hu, Q., Ge, Q., Zhang, Y. et al. M3SFormer: multi-stage semantic and style-fused transformer for mural image inpainting. npj Herit. Sci. 14, 64 (2026). https://doi.org/10.1038/s40494-026-02325-w
الكلمات المفتاحية: ترميم الجداريات الرقمية, استكمال الصور, التراث الثقافي, نماذج المحوّل, حفظ الأعمال الفنية