Clear Sky Science · ar

Geo-TCAM: طريقة لوصف ثانكا تدمج نمذجة المواضيع مع الانتباه الموجه هندسياً

2026-02-07 · العودة إلى الفهرس

الفن القديم يلتقي بالتقنية الذكية

لوحات الثانكا — اللفائف الملونة الزاهية التي تُرى في العديد من المعابد التبتية — مليئة بالتفاصيل الدقيقة وطبقات المعنى الديني. بالنسبة لزوار المتاحف أو المشاهدين عبر الإنترنت غير المختصين، يكون الكثير من هذا الرموز صعب الاستيعاب. تقدم هذه الدراسة نظام Geo‑TCAM، وهو نظام ذكاء اصطناعي مصمم لتوليد أوصاف غنية ودقيقة لصور الثانكا تلقائياً، مما يساعد الناس حول العالم على فهم هذا التراث الثقافي الفريد وحمايته بشكل أفضل.

لماذا تمثل صور الثانكا تحدياً للحواسيب

على خلاف الصور اليومية، تتميز أعمال الثانكا بأنها مكتظة ورمزية عن عمد. قد تحتوي لوحة واحدة على إله مركزي، وعشرات الشخصيات الصغيرة، وحدود مزخرفة، وإيماءات يدوية محددة، وأشياء وألوان ووضعيات يحمل كل منها دلالة دينية. برامج وصف الصور القياسية تؤدي عادة بشكل جيد في المشاهد البسيطة مثل «كلب على شاطئ»، لكنها تكافح هنا: قد تُسَمّي بوذا الرئيسي لكنها تغفل ما إذا كان يحمل وعاءً أو سيفاً، أو تسيء قراءة وضعية جسده، أو تخلط بينه وبين إله آخر شبيه. هذه الأخطاء ليست تافهة — فهي قد تقلب القصة والعقيدة التي تقصد اللوحة نقلها، مما يقوض قيمتها التعليمية والثقافية.

مخطط جديد لوصف الصور المقدسة

يتعامل Geo‑TCAM مع هذه المشكلات عن طريق دمج ثلاث أفكار: ميزات بصرية متعددة المستويات، ومعرفة موضوعية بفن الثانكا، وانتباه موجه هندسياً إلى مناطق رئيسية مثل الوجوه. أولاً، يستخدم شبكة عميقة (ResNet50) لفحص كل صورة على عدة مستويات في آن واحد: تلتقط الطبقات المتوسطة الحواف والأنسجة والأشكال البسيطة، بينما تلخص الطبقات الأعمق التكوين العام. من خلال دمج هذه المستويات، يمكن للنموذج أن يلاحظ كل من التفاصيل الدقيقة مثل الزخارف والتخطيط العام للخلفية والشخصيات، مقدماً فهماً بصرياً أغنى من الأنظمة السابقة التي ركزت على طبقة واحدة.

تعليم النموذج "مواضيع" الثانكا

الرؤية وحدها لا تكفي؛ يحتاج النظام أيضاً إلى إحساس بلغة ومواضيع الثانكا. لذلك درّب الباحثون نموذج مواضيع على آلاف الأوصاف المكتوبة من قِبل خبراء الثانكا. يجمع هذا النموذج الكلمات في عدد من الموضوعات الشائعة — على سبيل المثال، المتعلقة بالبوذا، والبوديساتفات، وعرش الزهرة (اللوتس)، والأدوات الطقسية، أو الآلهة الحامية. لكل صورة جديدة، يقدّر Geo‑TCAM أي الموضوعات هي الأكثر صلة ويخلط تلك المعلومات مع الميزات البصرية. بعد ذلك يبرز آلية انتباه مناطق الصورة التي تتوافق أفضل مع الموضوعات المرجحة. عملياً، المعرفة السابقة حول الأشياء والرموز التي تظهر معاً تميل إلى دفع الذكاء الاصطناعي نحو أوصاف أكثر معنى ووعياً ثقافياً.

ترك الذكاء الاصطناعي "ينظر" إلى حيث يهم الأمر

الابتكار الثالث هو وحدة انتباه مكاني واجهي موجهة هندسياً (GFSA). عادةً ما تضع تراكيب الثانكا وجه الشكل الرئيسي في مناطق متوقعة تقريباً من اللوحة. يستخدم Geo‑TCAM أدوات كشف حواف بسيطة للتركيز على هذه المنطقة والأيدي والوضعية المحيطة بها، ثم يطبق آلية انتباه مخصصة تعزز تأثير هذه البكسلات عند تكوين التسمية الوصفية. تساعد هذه الاستراتيجية «حدد المكان أولاً، ثم ارشد لاحقاً» على منع التعرف الخاطئ المبكر للشخصية المركزية، والذي قد يتسرب بعد ذلك إلى سلاسل طويلة من الأخطاء النصية حول الإيماءات والصفات والمكانة. تُظهر خرائط الحرارة البصرية أنه مع GFSA يتركّز النموذج بوضوح أكثر على وجه الشخصية الرئيسية والأشياء الأساسية مع الاستمرار في تتبّع الزخارف الخلفية المهمة.

ما مدى كفاءة Geo‑TCAM؟

لاختبار منهجهم، بنى المؤلفون مجموعة بيانات متخصصة D‑Thangka تضم ما يقرب من 4000 صورة موشّحة بعناية، لكل منها أوصاف تفصيلية من خبراء. على هذه المجموعة، تفوقت Geo‑TCAM بوضوح على عدة أنظمة وصف قوية، بما في ذلك AoANet الشائع ونماذج الرؤية‑واللغة الكبيرة. اعتماداً على المقياس المستخدم، تحسنت نقاطه بما يصل إلى نحو 120% مقارنة بالخط الأساس، وفضّل المقيمون البشر تسمياته بأغلبية ساحقة من حيث الدقة والطلاقة وغنى التفاصيل. والأهم من ذلك، عندما قيّموا نفس النموذج على مجموعة صور يومية معيارية (مجموعة COCO)، ظل تنافسياً مع الطرق الرائدة، مما يدل على أن تصميمه قوي ومع ذلك عام جداً.

ما معنى هذا للتراث وما بعده

بالنسبة لغير المتخصصين، الخلاصة هي أن Geo‑TCAM يمكنه تحويل لوحات الثانكا المعقدة بصرياً إلى روايات واضحة ومفيدة تبرز من الممثل، وما يفعله، ولماذا تهم تلك التفاصيل. من خلال مزج التحليل البصري متعدد الطبقات، والمواضيع المتعلمة من نصوص الخبراء، والانتباه الخاص بالوجوه والإيماءات، يرتّب النظام تسمياته بشكل أقرب بكثير إلى الطريقة التي يقرأ بها المتخصصون البشر هذه الأعمال الفنية. على المدى الطويل، يمكن أن تدعم مثل هذه الأدوات الأرشيفات الرقمية، ومرشدي المتاحف، والمنصات التعليمية، مما يجعل الفن الديني الغامض أكثر وصولاً مع مساعدة المحافظين والباحثين على توثيق وحماية الكنوز الثقافية الهشة.

الاستشهاد: Zhong, P., Hu, W., Zhao, Y. et al. Geo-TCAM: a Thangka captioning method integrating topic modeling with geometry-guided spatial attention. npj Herit. Sci. 14, 87 (2026). https://doi.org/10.1038/s40494-026-02343-8

الكلمات المفتاحية: وصف صور الثانكا, الذكاء الاصطناعي للتراث الثقافي, الانتباه البصري, نمذجة المواضيع, حفظ الفن