Clear Sky Science · ar
زيادة البيانات الموجهة بالوفاء لفهم التراث المعماري باستخدام نماذج لغوية كبيرة متعددة النماذج
لماذا تحتاج المباني القديمة إلى مساعدين رقميين أذكياء
في العديد من المدن التاريخية تختفي الأقواس المزخرفة على الأرصفة وواجهات المباني المتآكلة أو تُعاد بناؤها بشكل جذري. يتسابق الخبراء لتوثيق وحماية هذا التراث المعماري، لكن العمل بطيء ويتطلب معرفة عميقة بالأسلوب والبناء والتاريخ. تستكشف هذه الدراسة كيف يمكن لنوع جديد من الذكاء الاصطناعي—نماذج لغوية كبيرة متعددة النماذج قادرة على رؤية الصور وقراءة النص—أن يساعد، ونوع بيانات التدريب المصممة بعناية التي تحتاجها هذه النماذج لتفهم المباني القديمة فعلاً بدلاً من الاكتفاء بالتخمين.

عندما تنظر أنظمة الذكاء الاصطناعي إلى المباني وتخطئ
يبدأ المؤلفون باختبار عدة أنظمة ذكاء اصطناعي متقدمة على صور لأقواس واجهات متاجر تاريخية في قوانغتشو، الصين. هذه المباني، المعروفة باسم Qilou، تمزج بين تأثيرات صينية وغربية وتشكل واجهات شوارع طويلة ومستمرة. أنشأ المتخصصون معياراً يتضمن 50 صورة لواجهات وآلاف الأسئلة متعددة الاختيارات حول ما يظهر في كل مشهد: عدد الطوابق التي تمتد عليها شرفة، ما إذا كانت دعائم زخرفية معينة من نوع واحد أو آخر، مادة إطارات النوافذ، وكيفية تقييم التلف. حتى أفضل الأنظمة التجارية، بما في ذلك بعض أكبر النماذج المتاحة، تقرأ هذه الصور بشكل خاطئ بانتظام—تضع شرفات في الطابق الخاطئ، تخلط بين عناصر معمارية رئيسية، أو تصف نوافذ ألومنيوم حديثة بأنها «خشبية» اعتماداً في المقام الأول على اللون.
تفكيك كيف يقرأ الناس واجهة المبنى
لفهم هذه الإخفاقات، يرسم الباحثون تفسير التراث إلى ثلاث مهارات تشبه مهارات البشر. الأولى هي الإدراك البصري: ملاحظة ما هو موجود مثل النوافذ والأعمدة ومواد الأسطح. الثانية هي التفكير المكاني: فهم كيف تصطف أجزاء الواجهة وتتكرر، بما في ذلك التناظر والإيقاع الرأسي والأفقي للفتحات. الثالثة هي التفكير السياقي: الاستنتاج حول ما يعنيه وضع المبنى وتاريخه، مثلاً ما إذا كانت الدهانات المتقشرة تشير إلى تدهور خطير أم مجرد تآكل طفيف. تظهر اختباراتهم أن أنظمة الذكاء الاصطناعي الحالية تواجه صعوبة خاصة في المهارتين الثانية والثالثة—التكوين المكاني الدقيق والمعنى الدقيق—لأنها نادراً ما رأت أمثلة تراثية معنونة بعناية أثناء التدريب.
تعليم الذكاء الاصطناعي بصور مصطنعة لا تزال صادقة
جمع المزيد من الصور الحقيقية والتسميات الخبيرة وحده سيكون مكلفاً للغاية. بدلاً من ذلك، يبني الفريق «مضخماً» للبيانات ينشئ صور واجهات اصطناعية مقنعة مع أزواج سؤال–إجابة مطابقة. الفكرة الأساسية هي معالجة جانبين من الواجهة بشكل منفصل: هيكلها المكاني (الترتيب والنسب الدقيقة للفتحات والزخارف) ونكهتها الدلالية (المواد، الأسلوب التاريخي، والتعرية). باستخدام محرك توليد صور حديث، يضيفون وحدة متخصصة تثبت الهندسة باتباع خرائط الحواف المرسومة من مبانٍ حقيقية، وأخرى تتحكم في التفاصيل الأسلوبية عبر محولات خفيفة مدربة على مجموعات أسلوبية صغيرة ومتناسقة. بخلط المخططات والأساليب يمكن للنظام إنتاج أكثر من 1400 تنويع جديد للواجهات من 208 صور أصلية فقط، مع الحفاظ على المظهر والإحساس المرتبطين بالعمارة الحقيقية.

التحقق مما إذا كان العالم الاصطناعي يطابق العالم الحقيقي
ثم يسأل المؤلفون: هل تتصرف هذه الواجهات الاصطناعية مثل بيانات التراث الحقيقية؟ يقارنون التشابه الهيكلي، القرب الدلالي في فضاء ميزات متعلم، وحكم الخبراء البشر. تُظهر الدرجات الكمية أن الوحدة المركزة على البنية تحسّن بشكل كبير مدى تطابق مخطط الواجهات الاصطناعية مع الأمثلة الحقيقية، بينما تزيد الوحدة المركزة على الأسلوب من التنوع دون الانحراف عن الطابع الإقليمي الأصيل. يقيم المراجعون الخبراء الصور المعززة بأنها أكثر واقعية وأمانة أسلوبية بكثير من تلك التي أنتجها مولد قياسي، والأهم من ذلك أنهم يجدون أنها تحتفظ بتفاصيل كافية لإجابات موثوقة عن المواد والعناصر والأضرار.
نماذج أصغر مضبوطة تتفوق على نماذج عامة أكبر
مسلحين بهذه المجموعة الموسعة من البيانات، يقوم الفريق بضبط نموذج رؤية-لغة مفتوح المصدر متوسط الحجم، ثم يختبره على معايير واجهات صينية وأوروبية مختلطة. على الرغم من امتلاكه عدداً أقل بكثير من المعامل الداخلية مقارنة بالأنظمة التجارية الرائدة، فإن النموذج المضبوط يتفوق عليهم الآن عبر تقريباً جميع أنواع المهام، لا سيما في قراءة التناظر، العد ومحاذاة العناصر، وتمييز المواد. تَظهر مراجعات الخبراء لشرحه خطوة بخطوة تحولاً من «هلوسات» بعيدة إلى استدلال مبني على أدلة بصرية حقيقية: يستشهد النموذج بدليل بصري حقيقي، يطبق قواعد معمارية بشكل أكثر اتساقاً، ويقفز منطقياً أقل. تشير تحليلات أخطائه المتبقية إلى حدود جديدة—مثل تمثيل تشوهات المنظور بشكل أفضل وترميز معايير مهنية لتحديد متى يتطلب التدهور المرئي فعلاً تدخلاً.
كيف يساعد هذا في حماية الشوارع التاريخية
بالنسبة للقارئ غير المتخصص، الرسالة الأعمق هي أن قوة الذكاء الاصطناعي وحدها لا تكفي لحماية التراث المعماري. ما يهم على الأقل بقدر مماثل هو وفاء وبنية البيانات التي نغذي بها هذه الأنظمة. من خلال توليد واجهات اصطناعية تحافظ بعناية على هندسة ومعنى المباني الحقيقية، تُظهر هذه الدراسة كيف يمكن لنموذج صغير متاح علناً أن يصبح شريكاً أكثر موثوقية للخبراء. قد تستطيع مثل هذه الأنظمة في نهاية المطاف مسح أحياء بأكملها، الإشارة إلى تغييرات خطرة، ودعم قرارات الإصلاح على نطاق واسع، مما يساعد المدن على الحفاظ على واجهاتها التاريخية المميزة في مواجهة التغير السريع.
الاستشهاد: Huang, R., Lin, HC. & Zeng, W. Fidelity-driven data augmentation for multimodal large language model on architectural heritage interpretation. npj Herit. Sci. 14, 179 (2026). https://doi.org/10.1038/s40494-026-02446-2
الكلمات المفتاحية: التراث المعماري, الذكاء الاصطناعي متعدد النماذج, زيادة البيانات, واجهات تاريخية, الحفاظ الثقافي