Clear Sky Science · ar
مجموعة بيانات مرجعية لتقسيم أسطر النص في مخطوطات أوراق النخيل
إنقاذ القصص المكتوبة على الأوراق
تُعد مخطوطات أوراق النخيل من أقدم السجلات الباقية للحياة والعلوم والدين والفن في جنوب وجنوب شرق آسيا. العديد من هذه الأوراق الهشة تتآكل الآن، وتتصدع، وتتلاشى بفعل الزمن، مما يعرّض قروناً من المعرفة لخطر الضياع. تقدم هذه الورقة مجموعة بيانات رقمية دقيقة باسم LeafOCR-Line، تساعد الحواسيب على قراءة أسطر الكتابة على أوراق النخيل المتضررة بدقة أكبر، مسرّعة جهود الحفاظ على هذا التراث الهش ومشاركته مع العالم. 
لماذا يصعب قراءة الأوراق القديمة
قراءة مخطوطة ورق نخيل ليست بسيطة مثل مسح صفحة مطبوعة حديثة. غالباً ما تكون الكتابة مائلة، مضغوطة في مساحات ضيقة، أو مقطوعة بفتحات تثبيت كانت تُستخدم تقليدياً لربط الأوراق. يضيف الزمن بقعاً وبقعاً فطرية وتمزقات وحبرًا باهتًا. تبدو بعض هذه العلامات شبيهة بالحروف بشكل مضلل، بينما قد تكون أجزاء من الحروف الحقيقية مفقودة أو بالكاد مرئية. في لغات مثل المالايالام المستخدمة في كثير من هذه النصوص، الحروف مليئة بالحلقات والعلامات المكدسة التي قد تتداخل من سطر إلى آخر. بالنسبة لنظام رؤية حاسوبية يحاول تحديد كل سطر كتابة، يكون هذا التخطيط الفوضوي والمتداخل تحدياً خاصاً.
من الأوراق الفيزيائية إلى معيار رقمي
سعى المؤلفون إلى إنشاء مجموعة بيانات مرجعية كبيرة وواقعية تركز على خطوة حاسمة في سلسلة الرقمنة: فصل كل سطر نص عن الخلفية والأسطر المجاورة. جمعوا 20 حزمة من مخطوطات أوراق النخيل باللغة المالايالام من مجموعة عامة عبر الإنترنت، تغطي أعمالاً مكتوبة تقريباً بين القرنين 11 و18. بعد استخراج ما يقرب من 3000 صورة صفحة وقص الخلفيات الداكنة تلقائياً، عملوا على مناطق الورق فقط. تختلف كل ورقة مقطوعة بشدة في الحجم، وتحتوي على ثلاثة إلى اثني عشر سطراً من النص، وقد تشمل فتحة أو اثنتين للربط، وتباعداً غير منتظم، وأنماط خط متنوعة تعكس مؤلفين وفترات زمنية مختلفة.
تصنيف الأضرار وتتبع كل سطر
بما أن مستويات التلف المختلفة تتطلب استراتيجيات معالجة مختلفة، فُسِّمت كل صورة إلى واحد من ثلاثة مستويات جودة: أقل تدهوراً، متدهورة بدرجة متوسطة، أو متدهورة بشدة. استند هذا التدرج إلى طريقة تقييم موضوعية سابقة تحلل الوضوح البصري والتباين والحالة الفيزيائية. الابتكار الرئيسي في LeafOCR-Line يكمن في كيفية وسم أسطر الكتابة. بدلاً من رسم مستطيلات بسيطة غالباً ما تقطع الحروف الممتدة فوق أو تحت السطر، استخدم الفريق حدوداً مُعرَّفة متعدد الأضلاع مرنة تتبع الشكل المنحني الفعلي لكل سطر عن كثب. 
ماذا تحتوي مجموعة البيانات
بإجمال، توفر LeafOCR-Line 1710 صورة لأوراق النخيل، كل منها مرتبط بصورة قناع مطابقة تُبرز أسطر النص فيه. تنقسم المجموعة إلى مجموعات تدريب وتحقق واختبار بنسب مماثلة من المستويات الثلاثة للجودة: نحو نصف الصور متدهورة بدرجة متوسطة، بينما تُقسّم البقية تقريباً بالتساوي بين حالة أفضل وأسوأ. من هذه الـ1710 أوراق، يمكن للباحثين استخراج أكثر من 10,000 صورة سطر فردية. تلخّص ملفات إضافية، لكل صورة، مستوى التلف والمخطوطة المصدر، بما في ذلك روابط تعيد إلى المستودع الأصلي على الإنترنت. تسهّل هذه البنية مقارنة الطرق بعدل وتصميم أنظمة تتكيّف مع درجات مختلفة من التلف.
كيف تتعامل خوارزميات اليوم
لإظهار أن مجموعة البيانات كلاًّ من التحدّي والمفيد، درّب المؤلفون واختبروا مجموعة واسعة من نماذج تقسيم الصور الحديثة، تتراوح من شبكات مشفر-فك الترميز الكلاسيكية إلى تصاميم أحدث قائمة على المحولات. قاسوا مدى تطابق مناطق الأسطر المتوقعة من كل نموذج مع الأقنعة التي صنعها البشر. استطاعت جميع النماذج تقسيم الأسطر بدرجة معقولة، لكن نهجاً واحداً باسم DeepLabV3 برز. كان فعالاً بشكل خاص في التقاط الأسطر الرفيعة والمنحنية والحفاظ على الاستمرارية حتى في الأوراق المتضررة بشدة، مع وجود أخطاء صغيرة حيث كانت الأسطر قريبة جداً من بعضها. أدت نماذج شائعة أخرى مثل U-Net وLinkNet أداءً قوياً أيضاً لكنها كانت أقل اتساقاً قليلاً في أسوأ الحالات، بينما واجهت بعض الشبكات القائمة على المحولات ونماذج الهرم صعوبة في التفاصيل الدقيقة.
من خط واحد إلى العديد، ولماذا يهم ذلك
على الرغم من أن LeafOCR-Line تحتوي على خط المالايالام فقط، فإن أشكال وتخطيط حروفها تشبه تلك الخاصة بخطوط مجاورة مثل التاميل والتجالاري والغرنتا. أظهر المؤلفون أن نموذجاً مُدرَّباً على مجموعتهم يمكنه أيضاً تقسيم الأسطر في هذه الخطوط ذات الصلة، مما يشير إلى أن نفس البيانات يمكن أن تدعم جهود رقمنة أوسع عبر عدة لغات. للقراء غير المتخصصين، الرسالة الأساسية بسيطة: تقدم LeafOCR-Line أساساً عاماً وقوياً لبناء واختبار خوارزميات قادرة على «رؤية» أسطر النص على أوراق النخيل المتضررة. وهذا بدوره يساعد الأرشيفيين وأمناء المكتبات والمجتمعات على تحويل شرائط نباتية هشة ومتلاشية إلى أرشيفات رقمية قابلة للبحث والمشاركة تحفظ الذاكرة الثقافية لأجيال قادمة.
الاستشهاد: Sivan, R., Pati, P.B. A benchmark dataset for text line segmentation in palm leaf documents. Sci Data 13, 424 (2026). https://doi.org/10.1038/s41597-026-06718-1
الكلمات المفتاحية: مخطوطات أوراق النخيل, تقسيم أسطر النص, رقمنة الوثائق, خط المالايالام, حفظ التراث