Clear Sky Science · ar

بناء مجموعة بيانات معنّنة حسب فئات الكلام لسلسلة المؤرخات الأربعة والعشرين القديمة-الحديثة

· العودة إلى الفهرس

لماذا تهمّ السجلات القديمة في عصر الذكاء الاصطناعي

لمدة تزيد على ألفي سنة، وثّق المؤرخون الصينيون الحروب والمحاكم والمجاعات والحياة اليومية في السلسلة الشاملة المعروفة باسم المؤرخات الأربعة والعشرين. اليوم، تُعاد اكتشاف هذه الكلاسيكيات ليس من قبل الباحثين فحسب، بل من قبل الحواسيب أيضاً. تصف هذه الدراسة كيف حول الباحثون هذه السجلات القديمة وترجماتها إلى الصينية الحديثة إلى قاعدة بيانات لغوية معنّنة بعناية. يمكن لهذا المورد أن يساعد الذكاء الاصطناعي على قراءة وترجمة وتحليل النصوص التاريخية بدقة أكبر — ويجعل الماضي البعيد في متناول الجمهور بصورة أوسع.

من المجلدات المغبرة إلى النص الرقمي

يبدأ المشروع بمهمة أساسية لكنها شاقة: تحويل ملايين الحروف المطبوعة إلى نص رقمي نظيف ودقيق. استمد الفريق مادته من مصدرين — طبعة حديثة حاسمة للمؤرخات الأربعة والعشرين ومجموعة كبيرة على الإنترنت — لتغذية نظام التعرف البصري على الحروف. ثم قاموا بعناية بإزالة المقتطفات المشوّهة، وتصحيح الحروف التي قُرئت خطأ، وإزالة الضوضاء مثل رؤوس وتذييلات الصفحات. كانت النتيجة مجموعة ملفات موازية، واحدة بالصينية القديمة وواحدة بالصينية الحديثة، تطابق الكتب الأصلية بدقة لكنها جاهزة للتحليل الحاسوبي.

Figure 1
Figure 1.

مزامنة الجمل القديمة مع الحديثة

نظرًا لأن الهدف كان مقارنة كيفية تغيّر اللغة عبر الزمن، كان من الضروري مواءمة النسخ القديمة والحديثة جملة بجملة. استخدم الباحثون برنامج محاذاة متخصصًا لمطابقة الفقرات أولاً، ثم تفكيكها إلى جمل متناظرة. قامت الأدوات الآلية بالعمل الشاق، لكن الخبراء البشريين اضطروا لمراجعة كل زوج مقترح، لأن نحو الصينية القديمة قد يختلف كثيرًا عن الصينية الحديثة. حيث تعثرت البرامج — بتقسيم فكرة في المكان الخطأ أو بقراءة حرف بصورة خاطئة — قام المعلِّقون بالتحقق من الصفحات الممسوحة الأصلية وتصحيح النص الرقمي بحيث تصطف كل جملة قديمة مع نظيرتها الحديثة بدقة.

تعليم الحواسيب رؤية النحو

خارج إطار النسخ البسيط، يتركز جوهر المشروع في الوسم النحوي. وُسم كل لفظ في النصين القديم والحديث بعلامة فئة كلام تشير إلى ما إذا كان مثلاً اسماً أو فعلاً أو كلمة زمن. ولأن لا معيارًا موحدًا موجودًا للصينية القديمة، ارتكز الفريق على الإرشادات الوطنية الحديثة ثم عدّلها لتناسب الاستخدامات القديمة. وضعوا مخطط وسوم يتألف من 22 علامة يتضمن علامة خاصة لاستخدامات فعلية قديمة مميزة مثل "إحداث الحياة" أو "الموت من أجل الوطن". أنتجت شبكة عصبية مخصصة — مبنية على نموذج لغوي للنصوص القديمة وطبقات وسم تسلسلية — وسوماً أولية، فراجعها وصحّحها لاحقًا فريق كبير من طلاب الدراسات العليا المدربين جيدًا. أظهرت اختبارات التوافق الصارمة بين المعلّقين اتساقًا عاليًا جدًا، مما يؤكد أن المجموعة المعنّنة النهائية كبيرة وموثوقة.

ما يكشفه هذا العدسة الجديدة

مع وجود المجموعة المعنّنة، فحص المؤلفون بعض الأنماط التي تكشفها. في الصينية القديمة، تهيمن الكلمات أحادية الحرف، مما يعكس أسلوبًا مختصرًا مشهورًا، في حين تفضّل الصينية الحديثة الكلمات ذات الحرفين. أكثر العناصر القديمة شيوعًا هي جزيئات نحوية صغيرة مثل "之" و"以"، بينما تشكّل الأفعال والأسماء العادية معًا نحو نصف الكلمات في كلتا الفترتين الزمنيتين. تُظهر البيانات أيضًا الكلمات التي تميل للظهور معًا — على سبيل المثال، تراكيب تصف المسؤولين أو الجيوش أو البعثات الدبلوماسية. بمقارنة الوسوم عبر أزواج القديم-الحديث، تتتبع الفريق كيف تغيّرت الوظائف عبر الزمن: بعض حروف الجر والظروف القديمة أصبحت الآن تتوافق مع أفعال حديثة كاملة، وبعض الأفعال تحولت إلى ألقاب ثابتة أو مصطلحات قانونية. استعرضت دراسة حالة أسماء الأماكن كافة ورسمت خريطة لتجمعاتها في سلالات مختلفة، كاشفةً كيف انتقلت المراكز السياسية والاقتصادية من الشمال الغربي إلى منطقة نهر اليانغتسي السفلى وما بعدها.

Figure 2
Figure 2.

جلب الماضي إلى المستقبل الرقمي

بعبارات بسيطة، يحول هذا المشروع جدارًا شاهقًا من النثر الكلاسيكي إلى بيانات هيكلية يمكن لكل من البشر والآلات التنقل فيها. للتأريخيين واللغويين، يوفر أداة قوية لتتبع كيفية تطور الكلمات والنحو وحتى حدود الدولة على مدى قرون. لمطوري الذكاء الاصطناعي، يقدم مادة تدريب عالية الجودة لبناء نماذج لغوية قادرة فعلاً على التعامل مع الصينية الكلاسيكية بدلًا من التعامل معها كخلاصة أحرف. وللطلبة والقراء العامين، تخفّض المزاوجة جملة بجملة بين النص القديم والحديث حاجز قراءة الكلاسيكيات. من خلال الوسم والمحاذاة الدقيقة للمؤرخات الأربعة والعشرين، أنشأ المؤلفون جسرًا من اللفائف المكتوبة يدويًا في الماضي إلى الأنظمة الذكية في الحاضر والمستقبل.

الاستشهاد: Ye, W., Xu, Q., Zhao, X. et al. Construction of the twenty-four histories ancient-modern part-of-speech tagged corpus. npj Herit. Sci. 14, 97 (2026). https://doi.org/10.1038/s40494-026-02309-w

الكلمات المفتاحية: مجموع نصوص صينية قديمة, وسم فئات الكلام, العلوم الإنسانية الرقمية, نصوص موازية, التغير اللغوي التاريخي