Clear Sky Science · he
שליטה סנסורית-מוטורית עם מודלים שפתיים גדולים דרך שיכלול מדיניות איטרטיבי
להדריך מכונות לנוע בכוחות עצמן
דמיינו רובוט שלומד לאזן מוט, להניע מטוטלת לעמדה ניצבת או לנהוג החוצה מעמק — בלי שהמהנדסים האנושיים מתכנתים כל תנועה קטנה בנפשכם או אוספים אלפי הדגמות. מאמר זה בוחן כיצד ניתן להפוך מודלים שפתיים גדולים (LLMs) — אותם מערכות שמשמשות צ’אטבוטים — ל"מוחות" שמעצבים ומשפרים אסטרטגיות בקרה עבור מכונות נעות כאלה, כשהם מסתמכים בעיקר על תיאורים טקסטואליים וקצת ניסוי וטעייה. 
ממילים לתנועות
בקרה רובוטית מסורתית לעתים קרובות מפרקת תנועה לחסנים קבועים, כגון צעדי הליכה מוגדרים מראש או תנועות אחיזה. תוכנית ברמת שיא בוחרת ואז מסדרת את החלקים הללו. בעוד ששיטה זו עובדת בסביבות פשוטות, היא נתקעת במצבים זורמים בהם התנועות מתמזגות זו בזו וצריכות כוונון עדין רגע אחרי רגע. המחברים מבקשים במקום זאת מה-LLMs ליצור חוקים מלאים של בקרה שממפים ישירות את מה שהרובוט חווה — מיקומו, מהירותו, זוויותיו וכו' — לפקודות מנוע רציפות. המידע ההתחלתי היחיד שהמודל מקבל הוא תיאור בשפה טבעית של גוף הרובוט, החיישנים והמנועים שלו, הסביבה הסובבת ומה שעליו להשיג.
מעגל של השתקפות ושיכלול
לב הגישה הוא לולאת למידה איטרטיבית שהמחברים קוראים לה שיכלול מדיניות איטרטיבי. בשלב הראשון מבקשים מה-LLM לחשוב על הבעיה בשלבים: הוא משרטט תחילה אסטרטגיה ברמה גבוהה בשפה פשוטה, אחר-כך הופך אותה לכללי IF–THEN–ELSE ברורים, ולבסוף ממיר את הכללים לאסימון קוד הניתן להרצה. הבקר הראשוני הזה מופעל בסביבה מדומה — למשל עגלה עם מוט שיש לשמור במצב ניצב — וביצועי הרובוט נמדדים. באופן קריטי, קטעי זמן קצרים של קריאות החיישנים והפעולות המתאימות מוזנים חזרה ל-LLM, יחד עם סיכום של מידת הצלחת האסטרטגיה. מבקשים מה-LLM לנתח את השרטוטים האלו, לזהות חולשות ולייצר בקר משופר. המחזור הזה חוזר פעמים רבות, וההתנהגות מתלמדת ומתלזקת בהדרגה. 
מבחן הרעיון
כדי לבדוק האם שיטה זו אכן עובדת, החוקרים ניסו אותה על סדרת משימות תקניות המשמשות בלמידת חיזוק: איזון מערכת עגלה–מוט, הנעת וייצוב מטוטלת, נהיגה של רכב במעלה תלול, ופתרון משימת acrobot שבה מערכת בעלת שני קישורים חייבת להינף לגובה יעד. הם גם טיפלו במשימת מטוטלת הפוכה מתוך סימולטור פיזיקה פופולרי. המשימות פשוטות מספיק כדי לחקור בפירוט אך עדיין לוכדות את האתגרים המרכזיים: הרובוט אינו רואה הכול בבת אחת, התגמולים מגיעים בעיכוב, והפיזיקה עלולה להיות בלתי יציבה. הצוות השווה מספר מודלים שפתיים מודרניים בקוד פתוח בנפח של כ-70–120 מיליארד פרמטרים, שינה את כמות האקראיות ביציאות המודל וחזר על כל ניסוי מספר פעמים כדי לקבל סטטיסטיקה מהימנה.
כמה טוב מודלים שפתיים שולטים במכונות?
המודל המניב הטוב ביותר, מערכת של 120 מיליארד פרמטרים בשם GPT-oss, גילה בקביעות אסטרטגיות בקרה איכותיות ברוב המשימות, לעתים מגיע לציונים אופטימליים או קרובים לאופטימליים. מודל נוסף, Qwen2.5, הופיע היטב בבעיות מסוימות ואף עלה על GPT-oss במטוטלת ההפוכה, אם כי התקשה באחרות כמו משימת המטוטלת הסטנדרטית. חשוב לציין שהבקרים הראשונים שה-LLMs ייצרו היו לעתים בינוניים, מה שמראה שהם לא רק משחזרים פתרונות מוכנים ממאגרי האימון. הביצועים השתפרו משמעותית לאורך איטרציות כאשר המודלים השתמשו במשוב כדי לכוונן אילו אותות חיישן חשובים יותר וכיצד להשפיע על הפעולות. המחברים גם בדקו כמה צעדי זמן של נתוני חיישן לכלול בכל בקשת שיכלול ואילו חלקי משוב הם הקריטיים ביותר, ומצאו שכמות בינונית של נתונים ומידע עשיר על אסטרטגיות קודמות נתנו את התוצאות הטובות ביותר.
מדוע זה חשוב לרובוטים בעתיד
ללא־מומחה, המסר המרכזי הוא שמודלים שפתיים יכולים לעשות יותר מדיבור: הם יכולים לסייע בעיצוב כללי המנוע הדקים שמאפשרים למכונות לנוע בחכמה. במקום להתחיל בהתנהגות אקראית ולדרוש כמויות עצומות של נתוני ניסוי וטעייה, LLM יכול להציע תוכנית בקרה סבירה מתיאור מילולי, ואז לשפר אותה בהדרגה על ידי קריאה ברשומות קצרות של מה שקרה כשניסו אותה. השילוב הזה של ידע מוקדם ולמידה מתוך ניסיון יכול להפחית עלויות ומאמץ בבניית רובוטים ומערכות אוטונומיות מסוגים שונים. עדיין קיימים מכשולים — כגון העומס החישובי הכבד להפעלת מודלים גדולים והאתגר של קנה מידה למשימות ארוכות ומורכבות מאוד — אך המחקר מציע מסלול לעבר רובוטים שתנועות הרמה הנמוכה שלהם מעוצבות, לפחות חלקית, על ידי מערכות שלמדו במקור פשוט לצפות את המילה הבאה במשפט.
ציטוט: Carvalho, J.T., Nolfi, S. Sensory-motor control with large language models via iterative policy refinement. Sci Rep 16, 13575 (2026). https://doi.org/10.1038/s41598-026-42091-0
מילות מפתח: מודלים שפתיים גדולים, בקרת רובוט, למידת חיזוק, סוכנים ממוקמי גוף, שיכלול מדיניות איטרטיבי