Clear Sky Science · ar

إطار قوي لتوليد SQL من النص الطبيعي باستراتيجيات ديناميكية مبنية على نماذج اللغات الكبيرة

· العودة إلى الفهرس

تحويل الأسئلة اليومية إلى إجابات من قواعد البيانات

تغرق المؤسسات الحديثة في البيانات، لكن معظم الناس لا يتحدثون اللغة التقنية المطلوبة للاستعلام عنها. يقدم هذا البحث TriSQL، نظامًا يتيح للمستخدمين طرح أسئلة بلغة بسيطة ويحوّلها تلقائيًا إلى أوامر قاعدة بيانات دقيقة. من خلال إدارة كيفية تعامل نماذج اللغات الكبيرة مع التعقيد بعناية، يهدف الإطار إلى جعل الوصول إلى البيانات أكثر دقة واعتمادية، حتى بالنسبة إلى أصعب الأسئلة.

Figure 1
الشكل 1.

لماذا التحدث إلى قواعد البيانات صعب للغاية

عندما يكتب شخص سؤالاً مثل «أي العملاء اشتروا أكثر من خمسة منتجات الشهر الماضي؟» يجب على الحاسوب ترجمة ذلك إلى SQL، اللغة المتخصصة التي تستخدمها معظم قواعد البيانات. تبدو هذه المهمة، المسماة تحويل النص إلى SQL، بسيطة ظاهريًا لكنها صعبة بشكل مدهش. يجب على النظام أن يفهم ما يريده المستخدم، ويجد الجداول والأعمدة المناسبة داخل قاعدة بيانات قد تكون هائلة وفوضوية، ثم يبني استعلامًا صحيحًا من الناحيتين التركيبية والوفائية للنية الأصلية. غالبًا ما تنهار الأنظمة السابقة، بما في ذلك تلك المعتمدة على نماذج اللغات الكبيرة، عندما تتضمن الأسئلة جداول عديدة أو منطقًا متداخلاً أو شروطًا دقيقة. قد تنتج استعلامات تبدو مشابهة للصحيحة لكنها تفشل في التشغيل أو تعيد نتائج خاطئة عند التنفيذ.

مسار ثلاثي المراحل من السؤال إلى الاستعلام

يتصدى TriSQL لهذه المشكلات عبر خط أنابيب مكوّن من ثلاث مراحل. أولًا، يحدد مُحدد موجه بالسؤال كلمات المستخدم وبنية قاعدة البيانات الكاملة ويقرر أي الجداول والأعمدة ذات صلة فعليًا. بدلًا من عرض المخطط بأكمله على نموذج اللغة بشكل أعمى، يضيّق الرؤية إلى الأجزاء المهمة فقط. ثانيًا، يخطط مُولّد واعٍ بالهيكل شكل استعلام SQL قبل ملء التفاصيل. يرسم أولًا هيكلًا عامًّا—ما المقاطع المطلوبة وكيفية ارتباطها—ثم يدرج الجداول والربط والشروط المحددة. تساعد هذه المقاربة «الهيكل أولًا، المحتوى ثانيًا» على الحفاظ على قواعد SQL الصارمة، خصوصًا للاستعلامات الطويلة والمعقدة. أخيرًا، يتحقق مُنقّح واعٍ بالتعقيد من الاستعلام الأولي ويحسنه، مستخدمًا استراتيجيات مختلفة اعتمادًا على مدى صعوبة السؤال.

تكييف الجهد مع صعوبة السؤال

مرحلة التنقيح هي المكان الذي يستخدم فيه TriSQL نماذج اللغات الكبيرة بطريقة مبتكرة. يقيم النظام مدى تعقيد كل سؤال ومسودة الاستعلام، مع الأخذ بعين الاعتبار عوامل مثل عدد الجداول المرتبطة، وعمق أي تعشيش، وأنواع القيود المستخدمة. للحالات البسيطة، يطبق تصحيحات خفيفة فقط، مثل إصلاح أخطاء نحوية صغيرة. للحالات المتوسطة، يعيد تنظيم المقاطع ويتأكد أن الاستعلام يتوافق مع المخطط المختار. وللأسئلة الأكثر تطلبًا، يستدعي نموذج اللغة للتفكير العميق، أحيانًا بتفكيك المشكلة إلى مهام فرعية وتشغيل استعلامات بديلة. والأهم أن TriSQL ينفذ كلًا من الاستعلام الأصلي والمُنقّح مقابل قاعدة البيانات ويستخدم سلوكهما—ما إذا كانا يعملان، ومدة التشغيل، وما يعيدانه—للاستدلال أي نسخة تظل أو ما إذا كان ينبغي محاولة جولة تنقيح أخرى.

Figure 2
الشكل 2.

اختبار النظام

لاختبار أداء TriSQL، اختبره الباحثون على معيار واسع الاستخدام يُدعى Spider، بالإضافة إلى عدة متغيرات أصعب تُدخل معرفة مجالية وأنماط جمل غير اعتيادية وبنى استعلام أكثر واقعية. يقيسون معيارين: المطابقة الدقيقة، التي تتحقق ما إذا كانت سلسلة SQL المولدة متطابقة مع مرجع بشري، ودقة التنفيذ، التي تتحقق مما إذا كانت تُنتج الإجابة الصحيحة عند التشغيل فعليًا. عبر هذه المجموعات، يحقق TriSQL أعلى دقة تنفيذ مُبلغ عنها حتى الآن مع الحفاظ على مطابقة دقيقة تنافس أفضل الأنظمة السابقة. كما أنه أكثر متانة: مع تحوّل الأسئلة من السهلة إلى الصعبة جدًا، ينخفض أداء TriSQL بوتيرة أهدأ بكثير من الأساليب المنافسة. وتظهر تجارب إضافية على مجموعة بيانات واقعية لإدارة شبكات الطاقة أن نفس الإطار يمكنه التعامل ليس فقط مع استرجاع البيانات، بل أيضًا مع أوامر الإدراج والتحديث والحذف وإنشاء الجداول. وتشير التجارب الأولية على قواعد البيانات الرسومية (Cypher) وأنابيب MongoDB إلى أن التصميم ثلاثي المراحل قابل للامتداد إلى ما هو أبعد من SQL الكلاسيكي.

ماذا يعني هذا للاستخدام اليومي للبيانات

بعبارات بسيطة، يقرب هذا العملنا من عالم يستطيع فيه الناس التحادث مع قواعد بيانات معقدة بسهولة مماثلة للطريقة التي يدردشون بها الآن مع محركات البحث. من خلال اختيار أجزاء قاعدة البيانات التي يجب النظر فيها بعناية، والتخطيط لبنية الاستعلام قبل ملء التفاصيل، وتعديل استخدام نماذج اللغات الكبيرة حسب صعوبة كل سؤال، ينتج TriSQL استعلامات أكثر احتمالًا للتشغيل بشكل صحيح وإرجاع النتائج المقصودة. وبينما تبقى تحديات—مثل التعامل مع الأسئلة الغامضة وقواعد البيانات غير المألوفة—تُظهر الدراسة أن تصميمًا متأنٍّ ومؤطرًا على مراحل يمكن أن يجعل واجهات اللغة الطبيعية للبيانات أقوى وأكثر قابلية للتوقع للمستخدمين اليوميين.

الاستشهاد: Su, X., Gu, Y., Wang, P. et al. A robust natural language text-to-SQL generation framework with dynamic strategies based on LLMs. Sci Rep 16, 7892 (2026). https://doi.org/10.1038/s41598-026-39128-9

الكلمات المفتاحية: تحويل النص إلى SQL, واجهات اللغة الطبيعية, استعلام قواعد البيانات, نماذج لغات كبيرة, متانة الاستعلام