Clear Sky Science · ar
تعلّم معزّز متعدد الوكلاء هرميًا للإجابة على الأسئلة في المستندات الصناعية المدعومة بالاسترجاع
مساعدة أذكى من الكتيّبات المعقّدة
تعتمد الصناعات الحديثة مثل شبكات الطاقة والتصنيع على كتيّبات سميكة ومخططات الدوائر وجداول المعاملات للحفاظ على تشغيل المعدات بأمان. عندما يواجه المشغّلون أسئلة عاجلة — مثل سبب انطلاق إنذار أو أي مفتاح يجب تشغيله — غالبًا ما تكون الإجابة مدفونة في مكان ما داخل هذه المستندات الطويلة ذات التنسيقات المختلط. تقدّم هذه الورقة نظام ذكاء اصطناعي جديدًا يُدعى MARL‑RAGDoc، مصمَّمًا للتنقيب في هذه المعلومات الملتبسة وتقديم إجابات دقيقة ومدعومة بالأدلة بدلًا من التخمينات.

لماذا يضيع الذكاء الاصطناعي العادي في الكتيّبات الحقيقية
تعمل معظم أنظمة الإجابة الحالية جيدًا عندما تكون جميع المعلومات نصًا عاديًا، مثل مقال على الإنترنت. لكن المستندات الصناعية مختلفة تمامًا: فهي تمزج بين نص ومخططات وصور ومخططات انسيابية وجداول موزَّعة على عشرات الصفحات. تعتمد الأسئلة المختلفة على أجزاء مختلفة — فقد تكون الصور مهمة للأسلاك، بينما الجداول مهمة للتصنيفات أو الإعدادات. عادةً ما تتعامل الأنظمة الحالية مع جميع أنواع المحتوى بنفس الطريقة، تستخرج عددًا ثابتًا من المقاطع ثم تولّد إجابة. وبما أنها لا تستطيع تغيير مدى ثقتها بكل نوع من المحتويات أو عمق البحث اعتمادًا على السؤال، فإنها غالبًا ما تفوّت أدلة حاسمة، وتسترجع مواد غير ذات صلة، وأحيانًا «تتوهم» إجابات غير مدعومة بالمستندات.
فريق من المساعدين المتخصّصين بالذكاء الاصطناعي
يتعامل MARL‑RAGDoc مع هذه المشكلة باعتبار عملية البحث في المستندات لعبة تعاونية يلعبها عدة «وكلاء» ذكاء اصطناعي، لكل منهم دور مختلف. أولًا، يقسم النظام مجموعة المستندات إلى قطع صغيرة عديدة: كتل نصية وصورًا وجداول، وكل منها معنونة بموقعها على الصفحة ودورها (مثل العنوان أو التسمية التوضيحية). تُحوّل هذه القطع إلى فضاء رياضي مشترك بحيث تتقارب العناصر ذات الصلة من تنسيقات مختلفة. ثم، للسؤال المعطى، يبني النظام قوائم قصيرة من المرشحين المحتملين داخل كل تنسيق — مثل أفضل كتل النصوص أو الصور أو الجداول التي قد تحتوي على الإجابة.
منسّق يتعلّم أين ينظر
في قلب MARL‑RAGDoc يوجد وكيل منسّق عالي المستوى يقرّر مقدار الاهتمام الواجب إعطاؤه لكل نوع من المحتوى وعدد خطوات البحث المطلوبة. تحت هذا المنسق ثلاثة وكلاء متخصّصون، واحد للنصوص وآخر للصور وثالث للجداول. يختار هؤلاء الوكلاء المرشحين الذين يجب الاحتفاظ بهم، ومتى ينظرون إلى المواد المجاورة (مثل بقية صف الجدول أو التسمية التوضيحية تحت الصورة)، ومتى يتوقفون عن البحث. والأهم أن جميع هذه القرارات تُتعلّم عبر التعلم المعزّز: يتلقّى الوكلاء مكافآت بناءً على مدى جودة استرجاع الأدلة ذات الصلة ومدى جودة الإجابة النهائية. ومع مرور الوقت، يتعلّم النظام استراتيجيات مثل الاعتماد أكثر على الجداول للاستفسارات العددية أو على المخططات للأسئلة المتعلقة بالتوزيع المكاني.

من الأدلة إلى إجابات موثوقة
بعد أن يجمع الوكلاء أفضل الأدلة لديهم، يستقبل نموذج لغوي كبير السؤال مع النصوص والصور والجداول المختارة، مع وزنها حسب أهميتها. ثم ينتج نموذج اللغة إجابة ودرجة جودة تعكس مدى اكتمال هذه الإجابة ومدى دعم الأدلة لها. إذا كانت الدرجة منخفضة، يمكن للنظام أن يُطلق جولة استرجاع أخرى، طالبًا من الوكلاء جمع مواد تكميلية قبل المحاولة مجددًا. تُمكّن حلقة «استرجع–استدل–تأمل» هذه MARL‑RAGDoc من تصحيح نفسه عندما تكون المحاولة الأولى غير مؤكدة، مما يقلّص خطر ملء الفراغات بتخمينات غير مدعومة. كما تغذي نفس الحلقة عملية التدريب، لتعلّم الوكلاء أنماط الاسترجاع التي تميل إلى إنتاج إجابات قوية.
اختبار النظام
قيّم الباحثون MARL‑RAGDoc على ثلاث مجموعات صارمة من المستندات متعددة الوسائط، شملت اثنين من المعايير العامة ومجموعة بيانات جديدة لقطاع الطاقة بنوها من كتيّبات وإرشادات وتقارير فنية حقيقية. عبر الثلاث مجموعات، تفوق النظام الجديد على مجموعة من المنافسين الأقوياء، بدءًا من نماذج متعددة الوسائط عامة ذات قدرات عالية إلى أنظمة متخصّصة في فهم المستندات وأنظمة التعزيز بالتوليد المدعوم بالاسترجاع. قدّم تحسينات بنحو 5–9 نقاط مئوية في الدقة الإجمالية ومكاسب مماثلة في مقاييس أكثر تشددًا تتطلّب تطابقًا دقيقًا وترتيبًا مبكرًا للإجابات الصحيحة. كانت الفوائد واضحة بشكل خاص في المستندات الطويلة متعددة الصفحات والأسئلة التي تتطلب دمج معلومات من نصوص وجداول ومخططات.
ماذا يعني هذا للمشغلين في العالم الحقيقي
بعبارات بسيطة، يشبه MARL‑RAGDoc فريقًا من المساعدين المدرّبين الذين يعرفون كيف يستعرضون دفاتر تقنية ضخمة بسرعة، ويستشيرون المخططات أو الجداول المناسبة لكل سؤال، ويتحققون من عملهم قبل الإجابة. من خلال اتخاذ قرارات ديناميكية حول أي أجزاء المستند هي الأهم والتعلّم من التغذية الراجعة، يقدم النظام إجابات أكثر دقة وأفضل تبريرًا من النهج الموحدة. ومع أن الدراسة تركز على مستندات أنظمة الطاقة، يمكن أن يساعد نفس الإطار عمالًا في مجالات عديدة — من فنيي المصانع إلى طاقم المستشفيات — على التنقّل في الكتيّبات المعقّدة بسرعة وأمان.
الاستشهاد: Qian, Y., Han, B., Yuan, Y. et al. Hierarchical multi-agent reinforcement learning for retrieval-augmented industrial document question answering. Sci Rep 16, 13512 (2026). https://doi.org/10.1038/s41598-026-41684-z
الكلمات المفتاحية: إجابة عن أسئلة المستندات الصناعية, استرجاع متعدد الوسائط, وكلاء التعلم المعزّز, التوليد المعزز بالاسترجاع, الكتيّبات الفنية