Clear Sky Science · ar

التعرّف على صور التراث الثقافي متعددة الوسائط باستخدام شبكة دمج كمومية-تقليدية متعددة الوسائط

2026-03-17 · العودة إلى الفهرس

لماذا يهم تعليم الحواسب عن الكنوز القديمة

تزداد صور الكنوز الثقافية في المتاحف والأرشيفات التي تُلتقط وتُنشر على الإنترنت، لكن معظم هذه الصور مُعنونة بشكل سيّئ أو لا تُعنون على الإطلاق. هذا يصعّب على الزوار والمعلمين والباحثين العثور على ما يبحثون عنه، ويحدّ من قدرة الجمهور على استكشاف التراث المشترك للبشرية بعمق. تستكشف هذه الورقة طريقة جديدة للتعرّف الآلي وتصنيف مثل هذه الصور من خلال دمج فكرتين نادراً ما تلتقيان: مجموعات المتاحف والحوسبة الكمومية.

من المخازن المغبرة إلى المجموعات الرقمية

تحوي المتاحف اليوم ملايين القطع، من البرونز والورنيش إلى الثياب المطرّزة. تسارع العديد من المؤسسات إلى رقمنة مقتنياتها حتى يتمكن أي شخص متصل بالإنترنت من تصفحها. ومع ذلك، بمجرد أن تُنشر الصور على الإنترنت، يجب وضعها في الفئات المناسبة—مثل المينا أو اليشم أو الحرير أو المخمل—إذا كانت لتكون مفيدة حقاً. عادةً ما تنظر أدوات الذكاء الاصطناعي التقليدية إلى البكسلات في كل صورة فقط. فهي تتجاهل الأوصاف النصية الغنية التي يضيفها الأمناء والمؤرخون إلى القطع، مع أن هذه التسميات غالباً ما تذكر المواد والألوان والزخارف التي قد لا تكون واضحة للعين. ومع تزايد حجم المجموعات، تكافح الخوارزميات الكلاسيكية أيضاً من حيث السرعة واستهلاك الطاقة والتعقيد.

إقران الصور بالكلمات، والبتات بالكيوبتات

يقترح المؤلفون نموذجاً يسمونه نموذج الاندماج المتعدد الوسائط الكمّي-التقليدي. المصطلح «متعدد الوسائط» يعني ببساطة أنه يولِي اهتماماً لأكثر من نوع واحد من المعلومات في آن واحد—في هذه الحالة، صورة القطعة ووصفها النصي. أولاً، تُستخدم أدوات معروفة ومدرّبة على مجموعات بيانات ضخمة: شبكة عميقة للصور لالتقاط الأشكال والأنسجة، ونموذج لغوي لالتقاط معنى التسمية. ثم يتعلم آلية انتباه خاصة أي مناطق في الصورة تميل إلى الارتباط بأي كلمات. على سبيل المثال، عندما تذكر التسمية «تنين ذهبي»، يتعلم النموذج التركيز على المناطق ذات اللون الذهبي والشكل الشبيه بالتنين. ينتج عن هذا وصف مشترك يمزج الرؤية واللغة.

السماح للدارات الكمومية بمزج الإشارات

بعد استخراج ميزات الصورة والنص، تُغذى إلى دائرة كمومية صغيرة مُحاكاة. وبما أن أجهزة الكم الحالية تحتوي على عدد محدود من الكيوبتات، يضغط المؤلفون المعلومات باستخدام مخطط يعبّئ العديد من القيم الكلاسيكية في أمبيرتيودات عدد قليل من الكيوبتات. داخل الجزء الكمومي، يصممون دائرة على مرحلتين تطبق دورات من اللفات على كل كيوبت ثم تُدخل التشابك—مما يجبر حالات الكيوبتات على أن تصبح معتمدة بعضها على بعض. تهدف هذه البنية إلى كشف علاقات دقيقة بين الأنماط البصرية وإشارات التسمية قد لا تُكتشف بخلاف ذلك. بعد هذا المعالجة الكمومية، تُقاس حالة الكيوبتات وتُحوّل مرة أخرى إلى أرقام عادية، تُمرَّر بعد ذلك إلى مصنّف نهائي يتنبأ بفئة القطعة.

تجريب النهج الجديد

لمعرفة ما إذا كانت طريقتهم تقدم فوائد حقيقية، جمع الباحثون مجموعتين جديدتين من بيانات متحف القصر: الأولى لأشياء مادية مثل أعمال المينا والذهب والفضة والورنيش والبرونز واليشم، والثانية تركز على الأنسجة مثل الحرير والساتان والمخمل ونمط النسج المعقّد المعروف باسم كسي. تأتي كل صورة مع تسمية رسمية وملصق موثوق من سجلات المتحف. قارنوا نموذج الاندماج الكمّي–التقليدي مع مجموعة من المنافسين الأقوياء، بما في ذلك أنظمة صورة بحتة، وأنظمة نصّ بحتة، وتقنيات أخرى تجمع بينهما. عبر المجموعتين، حقق النموذج الجديد أعلى الدرجات في الدقة والمقاييس المرتبطة بها، متفوقاً حتى على طرق متعددة الوسائط المتقدّمة والمستوحاة من الكم. أظهرت تجارب إضافية كيف تعتمد أداؤه على عدد الكيوبتات وعمق الدائرة، وأنه يظل موثوقاً حتى عند إدخال أنواع شائعة من الضوضاء الكمومية في المحاكاة.

ماذا قد يعني هذا لزوار المتاحف في المستقبل

لغير المتخصصين، الرسالة الأساسية هي أن مزج الصور والكلمات والمعالجة المستوحاة من الكم يمكن أن يجعل الحواسب أفضل في تمييز أنواع مختلفة من الأشياء الثقافية. وبينما تُشغّل الأجزاء الكمومية حالياً على محاكيات بدلاً من آلات كم كاملة النطاق، تشير الدراسة إلى مسار نحو أدوات أكثر كفاءة وتعبيراً مع نضوج الأجهزة. عملياً، يمكن لمثل هذه الأنظمة أن تساعد المتاحف والأرشيفات على فرز التحميلات الجديدة تلقائياً، وتنظيف السجلات القديمة، وتسهل على الناس البحث عن «أوعية طقوس من اليشم» أو «رداء منقوش بتنين» والعثور عليها فعلاً. توحي الدراسة بأن الحوسبة الكمومية قد تصبح مساراً مفيداً جديداً لفهم وحفظ التراث الثقافي في العصر الرقمي.

الاستشهاد: Fan, T., Wang, H., Zhao, Y. et al. Multimodal cultural heritage image recognition based on quantum and classical multimodal fusion network. npj Herit. Sci. 14, 160 (2026). https://doi.org/10.1038/s40494-026-02419-5

الكلمات المفتاحية: صور التراث الثقافي, التعلّم الآلي الكمّي, الاندماج متعدد الوسائط, رقمنة المتاحف, التعرّف على الصور