Clear Sky Science · he

למידת חיזוק רב‑סוכנית היררכית למענה על שאלות בתיעוד תעשייתי משופר באמצעות אחזור

2026-03-14 · חזרה לאינדקס

סיוע חכם יותר ממדריכים מורכבים

תעשיות מודרניות כמו רשתות חשמל ומערכות ייצור מסתמכות על מדריכים עבים, שרטוטי מעגלים וטבלאות פרמטרים כדי לשמור על פעולה בטוחה של הציוד. כאשר מפעילים נתקלים בשאלות דחופות — למשל מדוע מצלצל אזעקה או איזה מפסק יש להפוך — התשובה בדרך כלל חבויה באחד מהמסמכים הארוכים והממעורבים הללו. מאמר זה מציג מערכת בינה מלאכותית חדשה, בשם MARL‑RAGDoc, המיועדת לחפור במידע המסובך הזה ולספק תשובות מדויקות ומבוססות במקום ניחושים.

למה בינה רגילה הולכת לאיבוד במדריכים אמיתיים

מרבית מערכות המענה הקיימות עובדות היטב כשהמידע הוא טקסט פשוט, כמו מאמר מקוון. מסמכים תעשייתיים שונים בתכלית: הם מערבבים טקסט, שרטוטים, דיאגרמות וטבלאות הנפרשים על פני עשרות עמודים. שאלות שונות דורשות חלקים שונים — תמונות עשויות להיות חיוניות לחיווט, בעוד טבלאות חשובות לדירוגים או להגדרות. מערכות קיימות לרוב מטפלות בכל סוגי התוכן באותה צורה, אוספות מספר קטעים קבוע ואז מייצרות תשובה. מאחר שאינן יכולות לשנות עד כמה הן סומכות על כל סוג תוכן או כמה עמוק לחפש בהתאם לשאלה, הן לעיתים מפספסות ראיות חשובות, מאחזרות חומר לא רלוונטי ולעתים "מולידות" תשובות שאינן מגובות במסמכים.

צוות של עוזרים ממוקדים מבוססי בינה

MARL‑RAGDoc מתמודד עם הבעיה על‑ידי טיפול באחזור מסמכים כמשחק שיתופי שמנוהל על‑ידי מספר "סוכנים" של בינה מלאכותית, לכל אחד תפקיד שונה. ראשית, המערכת מפרקת אוסף מסמכים לחתיכות קטנות: בלוקי טקסט, תמונות וטבלאות, שכל אחד מתויג לפי מיקום בדף ותפקידו (כותרת, כיתוב וכו'). חתיכות אלה ממופות לחלל מתמטי משותף כך שפריטים קשורים מפורמטים שונים יתקרבו זה לזה. לאחר מכן, עבור שאלה נתונה, המערכת בונה רשימות מועמדים מבטיחות בתוך כל פורמט — כמו בלוקי טקסט, תמונות וטבלאות מובילים שעשויים להכיל את התשובה.

מתאם שלומד היכן לחפש

בלב MARL‑RAGDoc נמצא סוכן מתאם ברמה גבוהה שמחליט כמה תשומת לב לתת לכל סוג תוכן וכמה צעדי חיפוש נדרשים. מתחת למתאם זה פועלים שלושה סוכנים מתמחים, אחד לטקסט, אחד לתמונות ואחד לטבלאות. סוכנים אלה בוחרים אילו מועמדים לשמר, מתי להסתכל על חומר סמוך (כגון שאר שורת הטבלה או הכיתוב מתחת לתמונה) ומתי להפסיק לחפש. קריטי שהתהליכים הללו נלמדים באמצעות למידת חיזוק: הסוכנים מקבלים תגמולים על סמך כך עד כמה הם אחזרו ראיות רלוונטיות ועד כמה טובה התשובה הסופית. עם הזמן המערכת לומדת אסטרטגיות כמו להסתמך יותר על טבלאות לשאלות מספריות או על דיאגרמות לשאלות על סידור מרחבי.

מראיות ועד תשובות אמינות

ברגע שהסוכנים אספו את הראיות הטובות ביותר שלהם, מודל שפה גדול מקבל את השאלה יחד עם הטקסט, התמונות והטבלאות שנבחרו, משוקללים לפי חשיבותם. המודל מפיק תשובה וציון איכות המשקף עד כמה התשובה שלמה ומגובה. אם הציון נמוך, המערכת יכולה להפעיל סבב אחזור נוסף, ולבקש מהסוכנים לאסוף חומר משלים לפני ניסיון חוזר. לולאת "אחזור–היגיון–הרהור" זו מאפשרת ל‑MARL‑RAGDoc לתקן את עצמו כאשר הניסיון הראשון לא ודאי, ובכך מצמצמת את הסיכון למילוי פערים בניחושים בלתי מגובים. אותה לולאה גם חוזרת לאימון, ולומדת לאילו דפוסי אחזור נוטים להוביל לתשובות חזקות.

בדיקת המערכת

החוקרים העריכו את MARL‑RAGDoc על שלוש אוספים תובעניים של מסמכים מולטימודליים, כולל שני מדדי בוחן ציבוריים ומערכת נתונים חדשה מתעשיית החשמל שבנו ממדריכים אמיתיים, קווים מנחים ודוחות טכניים. בכל השלוש, המערכת החדשה עלתה על מגוון מתחרות חזקות, ממודלים מולטימודליים כלליים רבי‑עוצמה ועד מערכות הבנת מסמכים ואחזור‑מוגבר מתמחות. היא סיפקה שיפורים של כ‑5–9 נקודות אחוז בדיוק הכולל ורווחים דומים במדדים קפדניים יותר שדורשים התאמות מדויקות ודירוג מהיר של תשובות נכונות. היתרונות היו בולטים במיוחד למסמכים ארוכים מאוד ורב‑עמודיים ולשאלות שדרשו שילוב מידע מטקסט, טבלאות ודיאגרמות.

מה זה אומר למפעילים בשטח

במונחים יומיומיים, MARL‑RAGDoc פועל כמו צוות של עוזרים מאומנים שיודעים לסרוק חוברות טכניות ענקיות, להתייעץ בדיאגרמות או טבלאות הנכונות לכל שאלה ולבדוק את עבודתם לפני מתן תשובה. על‑ידי קבלת החלטות דינמית אילו חלקי מסמך חשובים ביותר ולמידה מתוך משוב, הוא מציע תשובות מדויקות ומוסברות יותר בהשוואה לגישות אחידות. בעוד המחקר מתמקד במסמכי מערכות כוח, אותו מסגרת עשויה לסייע לעובדים בתחומים רבים — ממפעילי מפעלים ועד צוותים בבתי חולים — לנווט במדריכים מורכבים במהירות ובבטחה.

ציטוט: Qian, Y., Han, B., Yuan, Y. et al. Hierarchical multi-agent reinforcement learning for retrieval-augmented industrial document question answering. Sci Rep 16, 13512 (2026). https://doi.org/10.1038/s41598-026-41684-z

מילות מפתח: QA למסמכים תעשייתיים, אחזור מולטימודלי, סוכני למידת חיזוק, הפקה משולבת באחזור, מדריכים טכניים