Clear Sky Science · ar

إطار للتحقق من صحة المخططات وتقييمها للمخططات المستخرجة في قواعد بيانات JSON

· العودة إلى الفهرس

لماذا تهم مخططات البيانات الخفية

التطبيقات الحديثة — من المتاجر الإلكترونية إلى أنظمة المستشفيات وشبكات المستشعرات — غالباً ما تخزن المعلومات في قواعد بيانات مرنة «بدون مخطط». تجعل هذه الأنظمة من السهل تطوير البيانات عند الضرورة، لكنها تخفي المخطط الأساسي الذي يحدد الحقول الموجودة، وكيف ترتبط ببعضها، وكيف تتغير عبر الزمن. عندما يحاول المهندسون لاحقاً دمج البيانات أو تحسين الاستعلامات أو ببساطة فهم ما هو مخزن، يحتاجون أولاً إلى إعادة بناء هذا المخطط المخفي. تحاول العديد من الأدوات تخمين مثل هذه المخططات تلقائياً، لكن حتى الآن لم يكن هناك طريقة معيارية وموضوعية للحكم على مدى جودة تلك التخمينات بالفعل.

مقياس للبنية الخفية للبيانات

تقدّم هذه الورقة إطار التحقق من صحة المخطط وتقييمه (SVEF)، وهو طريقة منهجية لقياس جودة المخططات المستخرجة من قواعد بيانات JSON ونظائرها. بدلاً من التركيز على كيفية إنتاج المخطط، ينظر SVEF فقط فيما يقوله المخطط الناتج عن البيانات ويفحصه مقابل ما هو مخزن فعلياً. يقسم الإطار جودة المخطط إلى ستة جوانب بديهية: ما إذا كانت أنواع الحقول صحيحة؛ أي الحقول المطلوبة فعلاً مقابل الحقول الاختيارية؛ ما إذا كان يمكن لحقل أن يقبل بأمان عدة أنواع من القيم؛ مدى تنظيم القوائم والمصفوفات؛ مدى استعادة الروابط بين الكيانات؛ ومدى دقة تتبّع المخطط للتغيرات عبر الزمن. يُقاس كل جانب بمقاييس كمية، وتُجمع الدرجات في مؤشر جودة شامل واحد.

Figure 1
الشكل 1.

ست عدسات على جودة البيانات

يفحص كل بعد من أبعاد SVEF الستة نقطة ألم شائعة لدى العاملين مع البيانات بلا مخطط. يتحقق دقة نوع البيانات مما إذا كانت الفئات الأساسية مثل النصوص والأرقام والقيم المنطقية تتطابق مع ما هو موجود فعلاً. تركّز الحقول المطلوبة والاختيارية على أنماط الوجود والترافق: على سبيل المثال، أن كل طلب يجب أن يحتوي معرف طلب، بينما يظهر رمز الخصم أحياناً فقط وقد يؤدي إلى ظهور حقول أخرى عند وجوده. يعترف دعم الأنواع المتعددة بأن الحقل نفسه قد يظهر بشكل مشروع كرقم في بعض السجلات وككائن مركب في أخرى، ويكافئ المخططات التي تلتقط هذا التنوع دون تعميم مفرط. يركّز اتساق بنية المجموعات على المصفوفات، ويسأل ما إذا كانت القوائم تمتلك عمقاً وبنية عنصر متوقعة بدلاً من أن تُسطح أو تُعامل كحزم غير هيكلية من القيم.

تتبّع الروابط وتتبع الزمن

ينظر بعدان إضافيان إلى ما وراء السجلات الفردية. يقيم استرداد علاقات الكيانات مدى جودة المخطط المستنتج في التقاط روابط مثل «العميل لديه العديد من الطلبات» أو «المريض خضع لعدة علاجات»، حتى عندما تكون هذه الروابط مُشاراً إليها فقط بواسطة معرفات متكررة أو كائنات متداخلة. يقارن SVEF شبكة الكيانات والاتصالات في المخطط المستنتَج مع مرجع موثوق باستخدام مقاييس قائمة على الرسوم البيانية توازن بين الصواب المحلي والبنية العامة. يطرح اكتشاف التطور الزمني ما إذا كانت الطريقة قادرة على ملاحظة ووصف التغيرات في مخطط البيانات عبر الزمن: حقول جديدة تظهر، وحقول قديمة تختفي، أو قيم بسيطة تتحول إلى كائنات فرعية أغنى. عن طريق تقسيم البيانات إلى نوافذ زمنية ومقارنة المخططات عبرها، يقيّم SVEF كل من ما إذا كانت نقاط التغير الصحيحة قد اكتُشفت وما إذا كانت الطريقة حساسة مفرطة أو بطيئة جداً.

Figure 2
الشكل 2.

وضع الإطار موضع الاختبار

لمعرفة ما يكشفه SVEF عملياً، طبّق المؤلفون الإطار على ثلاث طرق مختلفة لاستخراج المخططات وثلاث مجموعات بيانات مصممة بعناية: متجر إلكتروني، نظام رعاية صحية، وشبكة مستشعرات إنترنت الأشياء. كانت هذه المجموعات تركيبية لكنها واقعية، مع مخططات «حقيقة أساسية» معروفة تشمل حقول اختيارية، وسمات من نوع الاتحاد، وقوائم متداخلة، وإشارات بين الكيانات، وتغييرات بنيوية مخططة عبر الزمن. أدّت الطرق الثلاث جيداً في التعرف الأساسي على الأنواع، لكن نقاط قوتها اختلفت في نواحٍ أخرى. تفوّقت مقاربة مركزة على البنية في تحديد الحقول المطلوبة وتتبع تطور المخطط، وكانت طريقة متمحورة حول العلاقات الأفضل في ربط الكيانات، وتعاملت تقنية مُثرية دلالياً مع أنواع الحقول المختلطة وانتظام المصفوفات بشكل أكثر سلاسة. لم تكن أي منها الأقوى في كل الأبعاد الستة، وبرزت المقايضات بينها فقط عند النظر عبر عدسة SVEF المتعددة الزوايا.

ماذا يعني هذا لعمل البيانات في العالم الحقيقي

بالنسبة للممارسين، يوفر الإطار مقياساً ضرورياً للحكم والمقارنة بين الأدوات التي تعيد هندسة بنية البيانات من مخازن بلا مخطط. بدلاً من الاعتماد على فحوصات متفرقة أو تقدير المخططات بعين المشاهدة، يمكن للفرق الآن قياس مدى قدرة طريقة ما على التقاط جوهر بياناتهم، بما في ذلك الاعتمادات الدقيقة والتطور طويل الأمد. بالنسبة للباحثين، يبرز SVEF الأماكن التي تكافح فيها التقنيات الحالية — لا سيما الحقول الشرطية والمصفوفات المعقدة والانجراف الزمني — ويشير إلى الحاجة لطرق أكثر توازناً تدمج التفكير البنيوي والدلالي والواعي بالزمن. باختصار، يحوّل هذا العمل جودة المخطط من انطباع غامض إلى خاصية قابلة للقياس، مما يساعد المؤسسات على الوثوق بالمخططات الخفية التي تشغّل نظمها المعتمدة على البيانات وصقلها.

الاستشهاد: Belefqih, S., Barchane, M., Zellou, A. et al. Schema validation and evaluation framework for extracted schemas in JSON databases. Sci Rep 16, 10873 (2026). https://doi.org/10.1038/s41598-026-45554-6

الكلمات المفتاحية: مخطط JSON, قواعد بيانات NoSQL, استنتاج المخطط, دمج البيانات, التطور الزمني