Clear Sky Science · ar

التعرّف الذكي على نقوش الحقائب المطرزة: مقارنة سلسلة YOLO وRT-DETR

· العودة إلى الفهرس

لماذا تهم الحقائب المطرزة القديمة اليوم

في أنحاء الصين، كانت الحقائب الصغيرة المطرزة تُستخدم لحمل الأعشاب والتمائم والأماني بحظٍ جيد. اليوم، الكثير منها لم يبقَ سوى في أدراج المتاحف والمجموعات الخاصة. كل زهرة أو تنين مخاط صغير يحوي قصصًا عن المعتقدات والموضة والحياة اليومية. مع ذلك، فإن رقمنة وفهرسة هذه القطع المزخرفة يدويًا عملية بطيئة ومجهدة. تستكشف هذه الدراسة كيف يمكن للذكاء الاصطناعي الحديث أن يتعرّف آليًا على نقوش هذه الحقائب، لمساعدة المتاحف والمجتمعات على حفظ شق مهم من التراث الثقافي غير المادي في العصر الرقمي.

Figure 1
Figure 1.

من العين واليد إلى التعرّف الذكي

تقليديًا، كان الخبراء يحددون تصاميم الحقائب من خلال فحص الصور بدقة والرجوع إلى كتب المراجع. لكن هذا النهج لا يتناسب مع عشرات الآلاف من القطع الموزعة عبر الأرشيفات. لذلك جمع الباحثون مجموعة صور متخصصة مكونة من 783 حقيبة مطرزة مأخوذة من الكتب وأرشيف رقمي لمتحف رئيسي. حدّدوا ثماني فئات شائعة للزخارف — بما في ذلك النباتات والزهور، الطيور والوحوش، الحشرات والكائنات المائية، المناظر الطبيعية والمباني، الرموز والشخصيات، الشخصيات والقصص، القطع الأثرية والتحف، والأنماط الهندسية — ثم رسموا بعناية مربعات حول كل نقش في كل صورة. لمواجهة صغر حجم مجموعة البيانات، قاموا بعكس الصور رقميًا، وتدويرها، وتفتيحها، وتغميقها، وتغبيشها، موسعين مواد التدريب بأكثر من أربعة أضعاف مع التحقق من التسميات عبر البرمجيات وخبراء التراث الثقافي.

اختبار أدوات الذكاء الاصطناعي الشائعة

بمجموعة البيانات المنسقة هذه، قارن الفريق عائلتين من أنظمة كشف الأشياء. عائلة واحدة، تعرف باسم YOLO، تستخدم على نطاق واسع لمهام سريعة مثل رصد المشاة أو السيارات في الفيديو. هذه النماذج تنظر إلى الصورة بمرور واحد وتعتمد كثيرًا على الرقع المحلية. التصميم الآخر، الأحدث باسم RT-DETR، يجمع بين مرشحات الصورة التقليدية واهتمام على طراز الترانسفورمر، الذي يمكن أن يربط الغرز الصغيرة بالمشهد العام. ضبط المؤلفون أولًا عدة متغيرات من YOLO واختروا YOLOv5m كأساس قوي. أدت أداءً معقولًا في بعض الفئات — خصوصًا المشاهد السردية المعقّدة المصنفة تحت «الشخصيات والقصص» — لكنها واجهت صعوبات عندما كانت الزخارف صغيرة أو متداخلة بشدة أو اندمجت في الخلفية. في مثل هذه الحالات، قد تختفي الأزهار، وتُقرأ الحدود الهندسية بشكل خاطئ، وتُصنَّف أجزاء من الصورة كخلفية فارغة بالخطأ.

كيف يرى الترانسفورمر الهجين الغرز

ركّز الباحثون بعد ذلك على ترقية RT-DETR لهذا التحدي البصري غير المألوف. استبدلوا العمود الفقري القياسي بـ ConvNeXt-Large، وهو شبكة التلافيف الحديثة المصممة لالتقاط النُسج الدقيقة مع الحفاظ على رؤية الصورة ككل. واعتمدوا أيضًا استراتيجية تدريب تسمى Focal Loss، التي توجّه النموذج لإيلاء اهتمام خاص للأمثلة الصعبة والسهلة الخلط بدلاً من الاعتماد على الأمثلة السهلة. داخل RT-DETR، تُستخرج الميزات من صورة الحقيبة على عدة مقاييس وتُدمج، بينما يربط آلية الانتباه مناطق بعيدة لكنها ذات صلة، مثل الأزواج المتطابقة من الحيوانات أو الحدود المتكررة. من خلال دراسات إقصاء دقيقة وتعديل جداول التعلم والتنظيم خطوة بخطوة، توصل المؤلفون إلى تكوين محسن يوازن الدقة والثبات عبر عدة دورات تدريبية.

Figure 2
Figure 2.

ما الذي يحققه النظام المحسّن فعلاً

عند قياس الأداء بمؤشرات كشف الأشياء القياسية، تفوّق RT-DETR المحسّن بوضوح على نماذج YOLO. وصل مقياس الدقة الرئيسي mAP@0.5 إلى 0.5433 — أي تحسّن يقارب 33% مقارنةً بخط الأساس YOLOv5m — مع إحصاءات تشير إلى أن هذه الكسبات من غير المرجح أن تكون صدفة. برع النظام خاصة في المشاهد السردية المعقّدة، محققًا دقة متوسطة بلغت 0.833 لفئة «الشخصيات والقصص»، واستعاد العديد من الزخارف التي فشلت YOLO في اكتشافها، خصوصًا في الفئات المتناثرة أو الممثلة تمثيلًا ناقصًا مثل المنازل والمناظر والحدود الهندسية. كما أظهر ثباتًا أكبر عبر التجارب المتكررة، ما يشير إلى سلوك موثوق بدلًا من الافراط في التكيّف مع تقسيم تدريب-اختبار واحد. المقابل هو الحجم: أفضل نموذج RT-DETR أكبر بكثير وأثقل من نظائره في عائلة YOLO، مما قد يحدّ من نشره على الأجهزة الخفيفة.

ماذا يعني هذا للتراث الثقافي

لغير المتخصّصين، الرسالة الأساسية هي أن الحواسيب تتعلم ليس فقط العثور على السيارات والوجوه، بل قراءة لغة الحرفة التقليدية. من خلال إظهار أن كاشفًا قائمًا على الترانسفورمر، مُكيَّفًا ومدرَّبًا بعناية، يمكنه اختيار الزخارف المطرزة الكثيفة والمتداخلة بدقة أكبر من النماذج الشائعة ذات الزمن الحقيقي، تضع هذه الدراسة معيارًا للأدوات المستقبلية. قد تستخدم المتاحف والمؤسسات الثقافية مثل هذه الأنظمة في البحث عبر مجموعات الصور الضخمة حسب الزخرفة، وتتبع تطور رموزٍ معينة، أو مساعدة الحرفيين في إحياء تصاميم قديمة. يؤكد المؤلفون أن الأداء لا يزال متوسّطًا وتبعًا لذلك هناك حاجة إلى تحسينات إضافية — بما في ذلك نماذج أخف وإضافة معرفة ثقافية ووصف نصي — قبل النشر الواسع. ومع ذلك، تمثل الدراسة خطوة مهمة نحو إدارة رقمية ذكية ومحترمة لتراث الحقائب المطرزة.

الاستشهاد: Yang, H., Sui, Q., Xie, H. et al. Intelligent recognition of embroidered purse patterns: comparing YOLO series and RT-DETR. npj Herit. Sci. 14, 251 (2026). https://doi.org/10.1038/s40494-026-02518-3

الكلمات المفتاحية: التعرّف على نقوش التطريز, التراث الثقافي غير المادي, كشف الأشياء, الرؤية القائمة على الترانسفورمر, الحفظ الرقمي