Clear Sky Science · ar
تحديد المعلومات البصرية والأسئلة والأجوبة عن ورثة التراث الثقافي غير المادي باستخدام إطار مُحسَّن للاسترجاع البياني
نقل التقاليد المخفية إلى العصر الرقمي
في أنحاء الصين، يحفظ كبار فناني الأوبرا التقليدية، وفن قص الورق، ومسرح الظل، وغير ذلك من الفنون الحية مهارات انتقلت عبر الأجيال. ومع ذلك، فإن الكثير مما نعرفه عن هؤلاء الورثة موجود فقط في ملفات وصور متناثرة على الإنترنت، ما يجعل من الصعب على الجمهور — وحتى على الباحثين — العثور على معلومات موثوقة. تعرض هذه الورقة إطار عمل حاسوبيًا جديدًا يقرأ تلقائيًا "بطاقات الأعمال البصرية" لورثة التراث الثقافي غير المادي ثم يستخدم نماذج لغوية متقدمة للإجابة عن الأسئلة وتوليد تقارير مقروءة عنهم.
من بطاقات الصور إلى معرفة منظمة
تنشر العديد من المؤسسات الثقافية الآن بطاقات رقمية تجمع بين النص والتخطيط والرسوم البسيطة لتعريف كل وارث: الاسم، والحرفة، والمكان، والسيرة الذاتية، والمزيد. يستطيع البشر تصفح هذه البطاقات بسرعة، لكن الحواسيب تجد صعوبة لأن البطاقات تأتي من مناطق متعددة، وتستخدم تصميمات مختلفة، وغالبًا ما تحتوي على نص مفقود أو متلف. بنى الباحثون مجموعة بيانات كبيرة مكوَّنة من 5,237 بطاقة من هذا النوع لورثة التراث الثقافي غير المادي الصينيين، وكل بطاقة مُعنونة بعناية بعشرة أنواع معلوماتية رئيسية، مثل رقم المشروع، واسم المشروع، والمنطقة، والجنس، ووحدة العمل، ووصف قصير. يستخدمون أولًا التعرف الضوئي على الحروف (OCR) لقراءة النص وتسجيل موضع كل مقتطف على البطاقة، ثم يوظفون نماذج لغوية كبيرة للمساعدة في توحيد الوسوم قبل أن يتحقق الخبراء البشريون منها.

تعليم الآلات قراءة التخطيط والمعنى
لتحويل كل بطاقة إلى بيانات منظمة ونظيفة، صمَّم الفريق نموذجًا "للرسم البياني-الاسترجاع" يُحاكي كيفية استخدام البشر لكل من الكلمات والتخطيط. يصبح كل مقطع نصي على البطاقة عقدة في رسم بياني، والعلاقات المكانية بين المقاطع — يسار، يمين، أعلاه، أدناه — تُشكّل الحواف. يتعلَّم مكوّن لغوي قائم على RoBERTa وLSTM ثنائي الاتجاه معنى النص، مدعومًا بقاموس مخصص يضم ما يقرب من 5,000 مصطلح خاص بالتراث الثقافي غير المادي بحيث تُعالَج أسماء الحرف النادرة أو العبارات المحلية بشكل صحيح. وفوق ذلك، تنشر شبكة عصبية بيانية المعلومات عبر العقد المجاورة، محسنة التنبؤات حول ما يمثله كل مقطع نصي (على سبيل المثال، تحديد ما إذا كان اسم مكان يشير إلى منطقة جغرافية أم إلى وحدة عمل).
جعل النظام متينًا أمام فوضى العالم الواقعي
نادراً ما تكون سجلات التراث مثالية: قد تكون البطاقات مهترئة، أو مقطوعة، أو ممسوحة ضوئيًا بجودة منخفضة. للتعامل مع هذا، يقوّي المؤلفون نموذجهم البياني بثلاث أفكار مستعارة من تقنيات زيادة البيانات. يقومون بعشوائية بقناع بعض العقد حتى يتعلم النظام استنتاج المعلومات المفقودة من السياق؛ ويحذفون بعض الحواف عشوائيًا حتى يستطيع تحمل تغيّرات التخطيط؛ ويضيفون آلية انتباه موضعية تلتقط "ترتيب القراءة" العام للعناصر على البطاقة. معًا، تساعد هذه الحيل النموذج على التعميم عبر أنماط وجودات مستندات متعددة. في اختبارات مقابل تسع طرق منافسة معروفة، يحقق النهج الجديد أعلى متوسط F1 ماكروي (0.928) على مجموعة بطاقات التراث هذه، ويتصدر أيضًا خمسة معايير عامة لوثائق المنشورات، مما يشير إلى فائدته الواسعة خارج تطبيقات التراث.

إجابات أسئلة أذكى باستخدام استرجاع دائري
التعرّف على النص هو نصف القصة فقط؛ والمساهمة الثانية للورقة هي استراتيجية Loop-RAG (التوليد المدعوم بالاسترجاع الدوري) التي تعمل مع نماذج لغوية كبيرة مثل GPT-4 وLlama وChatGLM. تجلب أنظمة الاسترجاع المدعومة التقليدية مستندات خلفية مرة واحدة ثم تولّد إجابة، التي قد تظل غير كاملة أو خاطئة. بالمقابل، تضيف Loop-RAG حلقة داخلية تتحقق مرارًا مما إذا كان لدى النموذج اللغوي معلومات كافية للإجابة الحالية، وإذا لم تكن كافية، تُطلق بحثًا موجهًا آخر في قاعدة معرفية مُتجهية للتراث الثقافي غير المادي. ثم تدرس حلقة خارجية العديد من التفاعلات السابقة لتتعلم أي مسارات الاسترجاع وأنماط المطالبة تعمل بشكل أفضل، مما يقلل تدريجيًا من عمليات البحث الضائعة والأخطاء الواقعية.
من السجلات الخام إلى قصص ثقافية موثوقة
باستخدام هذا الإطار المدمج، يمكن للنظام أن يُنشئ تلقائيًا تقارير قصيرة عن وارث — موجزةً حرفه، ومنطقته، وأعماله التمثيلية، ووضعه — ويجيب عن آلاف الأسئلة الواقعية حول الأشخاص والممارسات. بقياسات جودة اللغة القياسية مثل BLEU وMETEOR وROUGE، يتفوق Loop-RAG مع GPT-4 على النماذج اللغوية البسيطة وإعدادات الاسترجاع الأبسط، بينما يحقق أيضًا أفضل دقة (F1 تصل إلى 0.941) في الإجابة عن الأسئلة، حتى عند تقديم أمثلة قليلة فقط. بالنسبة للقارئ العادي، يعني ذلك أن منصات التراث الثقافي المستقبلية قد توفر شرحًا تفاعليًا وموثوقًا للفنون التقليدية عند الطلب، محوِّلة السجلات الرقمية المتناثرة إلى قصص غنية قابلة للاستكشاف تُساهم في إبقاء التقاليد الحية مرئية ومقدَّرة.
الاستشهاد: Wang, R., Zhang, X., Liu, Q. et al. Visual information identification and Q&A of intangible cultural heritage inheritors by using enhanced Graph-Retrieval framework. npj Herit. Sci. 14, 113 (2026). https://doi.org/10.1038/s40494-026-02384-z
الكلمات المفتاحية: التراث الثقافي غير المادي, استخراج المعلومات, الشبكات العصبية البيانية, التوليد المدعوم بالاسترجاع, العلوم الإنسانية الرقمية