Clear Sky Science · ar

تعلّم تمثيلات دقيقة لاكتشاف خط يي منخفض الموارد وبناء مجموعة بيانات

· العودة إلى الفهرس

حفظ تراث مكتوب هش

لقد حافظ شعب يي في جنوب غرب الصين على تقليد مكتوب غني لقرون، موثّقين الطب والفلك والدين والحياة اليومية بخطّهم الخاص. لكن العديد من هذه المخطوطات تتلاشى أو تتلطّخ أو تتعرّض لأضرار، ونفس الخط معقّد بصريًا. نسخ مئات الآلاف من الحروف يدويًا عملية بطيئة ومكلفة. تقدّم هذه الورقة نظام رؤية حاسوبية جديد مصمّم خصيصًا لاكتشاف وعزل حروف يي في صور رقمية للمستندات القديمة، ممهّدة الطريق لرقمنة واسعة النطاق وحفظ هذا التراث الكتابي المهدد.

Figure 1
Figure 1.

لماذا هذا الخط صعب جدًا على الحواسيب

على عكس الأبجدية اللاتينية الأكثر شيوعًا أو حتى الصينية المطبوعة الحديثة، تُبنى حروف يي من ضربات كثيفة ومنحنية غالبًا ما تتداخل مع بعضها. كثير من الحروف المختلفة تبدو متشابهة للغاية، ونفس الحرف قد يظهر بأشكال طفيفة مختلفة عبر الزمن والمخطوطات. الصفحات التاريخية تستخدم غالبًا تخطيطات أعمدة متعددة ضيقة، مع فراغات غير منتظمة وضربات متداخلة. علاوة على ذلك، قد يتلاشى الحبر أو تتشوّه الصفحات أو تصبح الخلفيات مرقطة. الطرق القديمة للكشف، التي تعتمد على قواعد ثابتة حول التباعد أو على نماذج كشف نصوص عامة، تميل إلى دمج الحروف المجاورة، أو فقدان الضربات الباهتة، أو الخلط بين ضجيج الخلفية والكتابة. يجادل المؤلفون أن مخطوطات يي تمثّل نوعًا من «أسوأ الحالات» لكشف النص، وأن حل هذه المشكلة يمكن أن يساعد العديد من الخطوط منخفضة الموارد الأخرى.

طريق جديد لرؤية التفاصيل الدقيقة

لمواجهة هذه التحديات، صمّم الباحثون شبكة عصبية متخصّصة تسمى FGRL-YiNet (شبكة تعلّم التمثيلات الدقيقة لخط يي). في جوهرها يوجد تحوير على الطبقات الالتفافية القياسية، وهي العمود الفقري للتعرّف على الصور الحديث. بدلًا من استخدام مرشح ثابت واحد في كل مكان، تستخدم FGRL-YiNet التفافًا ديناميكيًا: تعمل عدة مرشحات مرشَّحة بالتوازي، وتقرر وحدة بوّابة صغيرة، لكل منطقة من الصورة، مقدار الاعتماد على كل منها. هذا يسمح للنظام بضبط "مجال الاستقبال" محليًا لالتقاط أنماط الضربات بدقّة، والإمساك بالمنحنيات والوصلات الدقيقة دون أن تشتتّه الخلفيات المزدحمة أو تلف الصفحة. وبُنيت على هيكل ResNet-18 مضغوط، حيث أبقي النموذج متوسّط الحجم عمدًا حتى يتمكّن من التعلّم بفعالية من كمية التعليقات التوضيحية المحدودة نسبيًا لخط يي.

Figure 2
Figure 2.

دمج المقاييس وتنظيف الصفحة

يتطلّب كشف الحروف على صفحة مخطوطة كاملة أيضًا فهم الأنماط عبر أحجام متعددة في آن واحد — من التموجات الصغيرة في ضربة واحدة إلى تخطيط عمود كامل. تُقدّم FGRL-YiNet وحدة دمج متعدد المقاييس تكيفية (AMSF) لحلّ هذه المسألة. تستخرج الشبكة أولًا ميزات عند عدة درجات وضوح، ثم تستخدم آلية انتباه مشتركة لتحديد أي مقياس وأي قنوات هي الأهم في كل موقع. يركّز جزء من هذا الانتباه على "أين" في الصورة تكون التفاصيل الدقيقة مهمة، بينما يركّز جزء آخر على "ما" نوع الميزة المفيدة — مثل عرض ضربة معين أو حلقة صغيرة داخل حرف. بالتوازي، يتعلّم رأس ثنائي التمييز قابل للتفريق فصل الحبر عن الخلفية من خلال التنبؤ بخريطة احتمالية وعتبة متغيرة محليًا. لأن هذه الخطوة مدمجة داخل الشبكة ومدرَّبة من طرف إلى طرف، يمكنها الحفاظ على الضربات الباهتة التي قد تمحوها طرق التحويل الأبيض-الأسود التقليدية، مع قمع البقع والبقع الناتجة عن التلف.

بناء مقياس مرجعي لخط نادر

عقبة رئيسية لأي خط متخصص هي البيانات: هناك عدد قليل من مخطوطات يي ذات جودة عالية رقمية، وحتى عدد أقل منها مع تسميات دقيقة لكل حرف. يتعامل الفريق مع هذا عبر بناء مجموعة البيانات YiPrint-694 من كلاسيكيات يي في لياڭشان، مما يُنتج ما يقارب 347,000 حرف معنَّم عبر 694 صفحة صورة و1,165 فئة حرفية. يجمعون بين معالجة ما قبل دقيقة — تقليل الضوضاء، تعزيز الحواف، والثنائيّة — مع خط أنابيب تقسيم شبه آلي وفحص يدوي دقيق بواسطة خبراء لغة يي. لمحاكاة مظهر الصفحات القديمة المتغيّرة اللون، ينشئون صورًا إضافية بخلفيات صفراء ومحمّرة. تصبح هذه المجموعة المنقّحة أرض تدريب لـ FGRL-YiNet ومقياسًا عامًا متاحًا للبحوث المستقبلية على خط يي والخطوط ذات الصلة.

مدى أداء النظام

عند الاختبار مقابل مجموعة واسعة من كاشفات النص الحديثة، بما في ذلك نماذج مستخدمة على نطاق واسع مثل Faster R-CNN وDBNet++ وPSENet، تحقّق FGRL-YiNet أفضل الدرجات الإجمالية على YiPrint-694. تكتشف الحروف بدقّة F-score عالية تبلغ 94.7%، مدفوعة بدقّة عالية جدًا (98.4%) واستدعاء قوي (91.3%)، ما يعني أنها نادرًا ما تخلط بين الخلفية والنص بينما تكتشف معظم الحروف على الصفحة. تُظهر تجارب الإلغاء، حيث تزال مكونات فردية، أن كل ابتكار — الالتفاف الديناميكي، الدمج متعدد المقاييس التكيفي، والثنائيّة القابلة للتفريق — يقدّم مكاسب قابلة للقياس، وأنها تعمل بأفضل شكل عند عملها معًا. ينتقل النموذج أيضًا جيدة إلى مجموعة MTHv2 الأكبر من النصوص البوذية الصينية التاريخية، حيث يؤدي نتائج تنافسية مع الكاشفات العامة الرائدة، مبرزًا إمكاناته الأوسع.

ما يعنيه هذا لحفظ الثقافة

للغير متخصصين، الرسالة الجوهرية هي أن التصميم الحذر والموجَّه يمكن أن يساعد الحواسيب على قراءة بعض أصعب خطوط العالم، حتى عندما تتوافر بيانات تدريب محدودة فقط. من خلال الجمع بين مرشحات تكيفية، ودمج متعدد المقاييس ذكي، وتنظيف مدمج للصفحات المتدهورة، يستطيع FGRL-YiNet تحديد حروف يي الفردية في مخطوطات مزدحمة ومتضررة بثبات. هذا يجعل إنشاء أرشيفات رقمية قابلة للبحث أسهل بكثير، ويتيح دعم البحث اللغوي والتأريخي، ويحمي السجل المكتوب لشعب يي. يرى المؤلفون أن معمارية ومجموعة البيانات التي قدموها تشكّلان مخططًا للتعامل مع خطوط أخرى مهمّشة حول العالم، مبينين أن تقدم الذكاء الاصطناعي يمكن أن يلعب دورًا مباشرًا في حفظ التراث الثقافي الهش للأجيال القادمة.

الاستشهاد: Sun, H., Ding, X., Yu, H. et al. Fine grained representation learning for low resource Yi script detection and dataset construction. npj Herit. Sci. 14, 183 (2026). https://doi.org/10.1038/s40494-026-02418-6

الكلمات المفتاحية: خط يي, المخطوطات التاريخية, كشف النص, التراث الرقمي, التعلّم العميق