Clear Sky Science · ar

تكامل المعرفة من أجل الانحدار الرمزي الموجه بالفيزياء باستخدام نماذج لغوية كبيرة مُدربة مسبقًا

· العودة إلى الفهرس

تعليم الحواسيب تخمين صيغ الطبيعة

تُختزل الكثير من الأفكار الكبرى في العلوم إلى معادلات أنيقة صغيرة: من كيفية سقوط الكرة إلى كيفية تموّج موجات الضوء عبر الفضاء. تستكشف هذه الورقة طريقة جديدة لمساعدة الحواسيب على إعادة اكتشاف مثل هذه المعادلات تلقائيًا من بيانات خام، عبر السماح لها بالاستعانة بنموذج لغوي كبير — نفس نوع الذكاء الاصطناعي الذي يشغّل روبوتات الدردشة الحديثة — بحيث لا تكون تخميناتها دقيقة فحسب، بل أيضًا معقولة من الناحية الفيزيائية.

Figure 1
Figure 1.

من البيانات الخام إلى قوانين قابلة للقراءة البشرية

يركّز المؤلفون على تقنية تُسمى الانحدار الرمزي، التي تبحث عن صيغة رياضية تربط بين المدخلات والمخرجات المقاسة. على عكس تركيب المنحنيات العادي، لا يبدأ الانحدار الرمزي بصورة معادلة ثابتة؛ بل يبني ويطوّر معادلات مرشّحة حتى تتطابق إحداها مع البيانات جيدًا. هذا يجعله أداة واعدة للاكتشاف العلمي، لأنه قد يكشف علاقات جديدة لم يدوّنها أحد من قبل. ومع ذلك ثمة مشكلة: المعادلة التي تناسب البيانات تمامًا قد تظل بلا معنى من وجهة نظر فيزيائية — على سبيل المثال، جمع مسافة مع زمن أو إنتاج وحدات لا تتطابق مع أي كمية حقيقية.

لماذا يظل البصيرة الفيزيائية مهمة

لتفادي مثل هذا الهراء، طور الباحثون نسخًا «موجَّهة بالفيزياء» من الانحدار الرمزي تدمج قواعد الطبيعة المعروفة في عملية البحث. تكافئ هذه الأساليب المعادلات التي، على سبيل المثال، تحافظ على الطاقة أو تحترم التناسق البُعدي. ومع ذلك، فقد تطلّب ترميز هذه المعرفة عادة خبراءً لصياغة قيود ودوال خسارة خاصة لكل مسألة جديدة. وهذا يجعل النهج قويًا لكنه صعب التعميم. فكل نظام فيزيائي جديد قد يحتاج إلى عمل تصميمي دقيق خاص به، مما يقيّد إمكانية وصول هذه الأدوات لغير الخبراء.

السماح لنماذج اللغة بحكم المعادلات

تقترح هذه الدراسة مسارًا مختلفًا: بدلاً من ترميز قواعد المجال بقسوة، استخدام نموذج لغوي كبير (LLM) كقاضٍ مرن لمدى معقولية العلوم. أثناء البحث، ينتج محرك الانحدار الرمزي معادلات مرشّحة تتطابق مع البيانات إلى حد ما. تُترجم كل معادلة إلى نص وتُرسل إلى النموذج اللغوي، إلى جانب موجه قصير يصف الكميات المعنية وأي قيود فيزيائية معروفة. يعيد النموذج درجات لثلاثة جوانب: ما إذا كانت وحدات المعادلة منطقية، ومدى بساطتها، وما إذا كانت تبدو واقعية فيزيائيًا. تُدمج هذه الدرجات في دالة الهدف الرئيسية، بحيث يقوم الحاسب الآن بموازنة «تطابق البيانات» مقابل «يبدو كفيزياء جيدة» عند اختيار المعادلات التي يستحق تحسينها.

اختبار الطريقة

لمعرفة مدى نجاح هذا الأسلوب، أجرى المؤلفون تجارب حاسوبية مكثفة على ثلاث مشكلات كلاسيكية: السقوط الحر لقطرة تحت ثقالة الأرض، الحركة التوافقية البسيطة لكتلة على نابض، وموجة كهرومغناطيسية مخمدّة. لكل نظام حاكى الآلاف من القياسات المشوشة تحت ظروف متباينة، ثم طلب من ثلاثة برامج انحدار رمزي شائعة استعادة المعادلات الأساسية، إما بمساعدة LLM أو بدونه. جرّبوا ثلاثة نماذج لغوية مفتوحة المصدر وصغيرة نسبيًا — Mistral وLlama 2 وFalcon — واستكشفوا كيف غيرت تصميمات الموجه المختلفة، من سياق محدود إلى وصف كامل وحتى الصيغة الحقيقية، إرشاد النموذج. عبر معظم الإعدادات، حسّن إضافة درجة النموذج اللغوي مدى تطابق المعادلات المستعادة مع القوانين المعروفة وجعلها أكثر صلابة تجاه الضوضاء، مع أداء مزيج PySR (مكتبة انحدار رمزي) وMistral الأفضل عمومًا.

Figure 2
Figure 2.

عندما تُوجّه الكلمات الرياضيات

اكتشاف رئيسي هو أن صياغة الموجه تؤثر بقوة على النتائج. عندما شملت الموجهات أوصافًا واضحة للمتغيرات وطبيعة التجربة وأحيانًا الصيغة المستهدفة الدقيقة، استقر البحث الموجَّه بالنموذج اللغوي بشكل أكثر موثوقية على البنية الصحيحة. في هذه الحالات الأثرى، كانت المعادلات المكتشفة غالبًا متطابقة هيكليًا مع القوانين الحقيقية، لا مجرد متقاربة عدديًا. اختبر المؤلفون أيضًا مدى تحمل النهج لتزايد مستويات الضوضاء العشوائية في القياسات. بينما تدهورت جميع الأساليب مع ازدياد الضوضاء وتعقّد المعادلات الأساسية، كانت النسخ المدعومة بالنموذج اللغوي تميل إلى فقدان الدقة بوتيرة أبطأ من نظيراتها التقليدية، ما يشير إلى أن إحساس النموذج اللغوي بالمعقولية يمكن أن يعمل كعامل استقرار.

ماذا يعني هذا للاكتشافات المستقبلية

بالنسبة للقراء العامين، تكمن الرسالة الأساسية في أن الذكاء النصي يمكنه أكثر من كتابة مقالات أو الإجابة عن الأسئلة — يمكنه أيضًا توجيه خوارزميات أخرى نحو معادلات علمية «تبدو صحيحة» وفق معرفتنا الحالية بالطبيعة. الطريقة المعروضة هنا لا تضمن أن كل معادلة مكتشفة صحيحة، وما تزال تعتمد على إشراف بشري وموجهات مصاغة بعناية. لكنها توضح أن النماذج اللغوية الكبيرة، المدربة على محيط من النصوص العلمية، يمكن أن تكون مصدرًا قابلاً لإعادة الاستخدام للمعرفة المجالّية، مساعدًا الأدوات الآلية على التحول من ملاءمة البيانات بشكل أعمى إلى اقتراح قوانين يستطيع العلماء تفسيرها وفحصها والبناء عليها.

الاستشهاد: Taskin, B., Xie, W. & Lazebnik, T. Knowledge integration for physics-informed symbolic regression using pre-trained large language models. Sci Rep 16, 1614 (2026). https://doi.org/10.1038/s41598-026-35327-6

الكلمات المفتاحية: الانحدار الرمزي, الذكاء الاصطناعي الموجه بالفيزياء, نماذج لغوية كبيرة, الاكتشاف العلمي, تعلّم المعادلات