Clear Sky Science · he

שימוש במודל שפה גדול כדי לשפר את ההסקה של מודל שפה גדול אחר דרך GRPO עם עדכון תגמול

· חזרה לאינדקס

להכיר למכונות איך לחשוב בצורה שיטתית

רבים מהמודלים של היום יודעים לשוחח, לתרגם ולענות על שאלות, אבל עדיין מתקשים להציג את שלבי המחשבה שלהם כפי שיעשה תלמיד מתמחה או אנליסט זהיר. המאמר חוקר איך מערכת בינה מלאכותית אחת יכולה לשמש לשיפור יכולות ההסקה של מערכת אחרת, וכיצד לעשות זאת מבלי לבנות ידנית מערכי נתונים ענקיים ומיוחדים. לקוראים שמתעניינים כיצד ה-AI עלול להפוך לאמיתי יותר בתחומים כמו פיננסים, רפואה או מחקר מדעי, העבודה מציעה מתכון מעשי לטיפול במודלים כך שיסבירו את תשובותיהם בצורה ברורה ועקבית יותר.

Figure 1
Figure 1.

מסמכים גולמיים לדוגמאות שניתן ללמד מהן

המחברים מתחילים בתצפית פשוטה: רוב המידע בעולם האמיתי קיים בצורות מבולגנות כמו דוחות, מכתבי בעלי מניות או דפי אינטרנט, ולא בפורמט מסודר של שאלה ותשובה. כדי לגשר על הפער הזה הם מציגים שני כלים תוכנתיים, Huggify-Data ו-CoT Data Generator. כלים אלה לוקחים טקסט לא מובנה וחותכים אותו אוטומטית לזוגות של שאלות ותשובות, ואז מבקשים ממודל שפה עוצמתי להשלים את שלבי ההסקה החסרים ביניהם. התוצאה היא שלישייה ממוסגרת לכל דוגמה: שאלה, שרשרת הסקה ותשובה. מהותי לכך הוא שהצנרת הזו ניתנת לכוונון כמעט לכל תחום, מתמטיקה בית-ספרית ועד פיננסים תאגידיים, מה שמאפשר לבנות נתוני אימון ממוקדי ההסקה בלי להסתמך על צבאות של מתייגים אנושיים.

איך מודל אחד מאשרן מודל אחר

ברגע ששלישיות של שאלה–הסקה–תשובה נוצרות, משתמשים בהן לאימון מודל "תלמיד" קטן יותר שיחשוב באותו האופן המבוסס-מבנה. מבקשים מהתלמיד לא רק לתת תשובה סופית, אלא להפיק הסבר מופרד בבירור ואחריו את המסקנה. האימון מונחה על-ידי שיטה שנקראת Group Relative Policy Optimization, שמשווה כמה תגובות מועמדות לאותה שאלה ודוחפת את המודל אל התגובות הטובות יותר. המאמר מעדכן שיטה זו בתוספת מונח תגמול שבודק האם הפלט של המודל עומד בפורמט הרצוי, עד לרמת הדמיון לדוגמת התייחסות מעוצבת היטב. תגמול זה מעניש בעדינות הסברים מבולגנים או לא שלמים, ודוחף את המודל לתשובות מסודרות וניתנות לפרשנות.

Figure 2
Figure 2.

בחינה של השיטה במבחן מעשי

כדי לבדוק האם המסגרת עובדת בפועל, המחברים מיישמים אותה על שני מערכי נתונים שונים מאוד. הראשון, GSM8K, מורכב מבעיות מילוליות מבית-הספר הדורשות הסקה אריתמטית מרובת שלבים. השני נבנה ממכתבים השנתיים של וורן באפט לבעלי המניות, שבו המטרה היא ללכוד הסקה ארוכת טווח על השקעות והחלטות תאגידיות. בשני המקרים הצנרת הופכת טקסט גולמי לנתוני אימון ממוסדים ומתאימה דק מודל בגודל בינוני בשם Qwen 2.5. במהלך האימון כלל דירוג פשוט מעניק תגמול לתגובות נכונות ומעוצבות היטב; ככל שהלמידה מתקדמת, התגמול הממוצע עולה בעקביות ומתייצב על שיאו התיאורטי, מה שמראה שהמודל ברובו שלט בהתנהגות המטרה על נתוני האימון.

כמה טוב המודל המשופר מתפקד

הביצועים נמדדים באמצעות "דיוק ממוצע לטוקן", שמעריך, בערך, איזה חלק מהיחידות הטקסטואליות הקטנות (טוקנים) בפלט של המודל תואמות לאלה המצופות. בעוד שמדד זה שונה מציון מבחן מסורתי של הכל או לא כלום, הוא מתאים להעריך האם הסברים ותשובות מיוצרים במבנה הנכון. ב-GSM8K, המודל הטוב ביותר מגיע לדיוק של 98.2 אחוז לטוקן, ובמכתבי באפט הוא מגיע ל-98.5 אחוז. ציונים אלה גבוהים יותר מאלו שדווחו עבור מערכות ידועות כמו GPT‑4 ו-Claude 3.5 Sonnet תחת אותו מדד, וזאת כשהם משתמשים רק במודל של 3 מיליארד פרמטרים שניתן לאמן בתוך פחות משני ימים על חומרה מושכרת. המחברים גם משתפים פרטים על עלויות חישוב ותצורות חומרה, ומשחררים את כל הקוד, המודלים ומערכי הנתונים כדי שאחרים יוכלו לבחון ולבנות על פיהם.

מה משמעות הדבר לשימוש יומיומי ב-AI

עבור לא-מומחים, המסקנה המרכזית היא שניתן ללמד מערכות AI לא רק לענות, אלא לענות בצורה משמעתית וקלה למעקב, באמצעות נתונים שמופקים אוטומטית ממסמכים שגרתיים. באמצעות שילוב של מודל-מורה עשיר בהסקה, צנרת נתונים גמישה ותכנית תגמול שמעריכה גם נכונות וגם בהירות, המחברים מראים כיצד לעצב מודלים קטנים יותר לפותרים בעיות בעלי אמינות גבוהה יותר. אף על פי שהם מציינים מגבלות — כגון הצורך במבחנים חזקים יותר להבנת עומק ובטיחות — המסגרת מצביעה לכיוון עתיד שבו ארגונים יכולים להפוך ארכיוני טקסט פנימיים לעוזרים מבוססי-AI מותאמים ושקופים לחינוך, פיננסים ותחומים נוספים.

ציטוט: Yin, Y. Use large language model to enhance reasoning of another large language model through reward updated GRPO. Sci Rep 16, 8360 (2026). https://doi.org/10.1038/s41598-026-39296-8

מילות מפתח: מודלים גדולים של שפה, הסקה בשרשרת חשיבה, אופטימיזציית תגמול, עיבוד ותיוג נתונים, בינה מלאכותית תחומית