Clear Sky Science · he
העברה מקצה‑אל‑קצה של מדיניות RL מבוססת דוגמאות מסימולציה למציאות בהתבסס על סגנון נוירלי עם יישום לחיתוך רובוטי
ללמד רובוטים לחתוך בעולם האמיתי
רובוטים משתפרים בלמידת משימות מורכבות בסימולציות מחשב, אך לעתים קרובות נתקלים בקשיים כשמעבירים אותם לעולם האמיתי, שבו חיכוך, שחיקה וחומרים בלתי מסודרים הופכים את הכל לפחות צפוי. המאמר חוקר גישה חדשה לגישור על הפער הזה, כך שרובוט שלמד לחתוך חומרים בבטחה וביעילות בסימולציה יוכל לשמר את היכולות שלו גם על חומרים אמיתיים ולא ידועים, מבלי להזדקק לכמויות עצומות של נתוני אימון מהעולם האמיתי.

למה המעבר מהמסך לסדנה קשה
למידת חיזוק מאפשרת לרובוט לגלות אסטרטגיות טובות באמצעות ניסוי וטעייה, אך ניסויים בעולם האמיתי יכולים להיות איטיים, מסוכנים ויקרים. במקום זאת מהנדסים לעתים קרובות מאמנים בסימולציה, שבה ניתן להריץ מיליוני ניסויים בזול ובבטחה. הבעיה היא שחיתוך בסימולציה תמיד נקי יותר מהמציאות. במעבדה הכלי של הרובוט עשוי לרטוט, למנועים יש חופש תנועה, החומרים משתנים והחיישנים נוטים להסחף. הבדלים אלה יוצרים "פער תחומי": מדיניות שנראית מצוינת בסימולציה עלולה לפעול בצורה גרועה או אפילו מסוכנת על חומרה אמיתית. התיקונים הקיימים מבוססים לעתים על מודלים פיזיקליים מפורטים—שיכולים להיות שגויים—או על מערכי למידה עמוקים כבדים שיש לאמן מחדש בכל שינוי בחומרה, בחיישנים או בחומרים.
לוויית רעיון מעולם האמנות הדיגיטלית
המחברים מתאימים רעיון מפתיע מעיבוד תמונה שנקרא העברת סגנון נוירלית. באפליקציות תמונה, העברת סגנון משחזרת את התוכן של תמונה אחת (למשל צילום) ואת הסגנון של אחרת (למשל ציור) ומשלבת אותן לתמונה חדשה. כאן, במקום תמונות, ה"תוכן" הוא התנהגות החיתוך הסימולציונית של הרובוט לאורך זמן, ו"הסגנון" הוא איך חיתוך אמיתי נראה בנתוני חיישן. השיטה לומדת ייצוג קומפקטי של קטעי תנועה קצרים באמצעות אוטו‑אנקודר ואריאציונלי (VAE), סוג של רשת נוירלית הדוחסת ושוחרת סדרות זמן. רשת זו מאומנת תחילה רק על מסלולי סימולציה כדי שתוכל לקודד ולשחזר מצבים ופעולות של הרובוט באופן אמין, ללא צורך בתוויות או תגמולים מניסויים אמיתיים.
להכניס את התחושה של העולם האמיתי לניסיון הסימולציוני
לאחר שהמקודד מאומן, המערכת מזינה דרכו את כל דוגמאות החיתוך האמיתיות הזמינות—אוספות באופן off‑policy, כלומר לא ממערכת בקרה סופית ומלוטשת. במרחב הלטנטי המשותף הזה, קטעים סימולציוניים ואמיתיים ש"מרגישים" דומים מתקרבים זה לזה. השיטה לאחר מכן מזמנת קישור בין קטעים סימולציוניים לאלה האמיתיים הקרובים באמצעות מדד דמיון ומבצעת אופטימיזציית העברת סגנון: היא משכללת בעדינות כל קטע סימולציוני כך שישמור על מבנה המשימה (למשל מתי ובאיזה אופן הרובוט מתקדם לתוך החומר) תוך לקיחת טביעות אצבע סטטיסטיות של קריאות חיישן אמיתיות. הקטעים הממותגים הללו יוצרים מאגר נתונים סרוגטיבי "אמיתי", מתוייגים אוטומטית עם פעולות המומחה מהסימולציה, ומשמשים לאימון מדיניות חדשה לרובוט הפיזי באמצעות למידת חיקוי.

לבחון את השיטה במבחן
החוקרים בחנו את הגישה שלהם על רובוט שיתופי מצויד במסור פתיחה ממונע, שחתך מגוון חומרים הכוללים קצף, קרטון, פלסטיק, מיקה ואלומיניום. הרובוט היה צריך לעקוב אחרי מסלולים על משטחים שטוחים, לא מסודרים ועקמומיים, ולהתאים קצב הזנה, עומק חיתוך וקשיחות תוך כדי פעולה. המדיניות החדשה המבוססת על העברת סגנון הושוותה למספר חלופות: שימוש במומחה המאומן בסימולציה ישירות, שיטה קודמת שהוסיפה מודל תיקון מעוצב ידנית, ושתי סכמות תרגום עמוקות מתקדמות (VAE מותנה ו‑CycleGAN). על פני מקרים שונים, מדיניות העברת הסגנון חתכה מהר יותר מהמומחה הסימולציוני הגולמי ומהשיטה המבוססת GAN, והגיעה לביצועים דומים או טובים יותר מהחלופות המורכבות יותר, תוך שמירה על התנהגות יציבה ונתיבי כלי חלקים יותר.
מה זה אומר לרובוטים של המחר
במילים פשוטות, המחקר מראה שרובוטים יכולים "לשאול את התחושה" של ניסיון מהעולם האמיתי בלי אימון חוזר נרחב או מודלים פיזיקליים מדויקים. על ידי שילוב מיומנות סימולציונית עם סגנון של נתוני חיישן אמיתיים, הרובוט לומד אסטרטגיית חיתוך המועברת היטב לחומרים וצורות שונות, גם כאשר משוב תגמולי ישיר מהעולם האמיתי אינו זמין. זה הופך את הפריסה של בקרים מבוססי למידת חיזוק לפרקטית יותר במשימות מגע תובעניות, כגון פירוק, מיחזור או אפילו ניתוחים, שבהן הניסוי על המערכת האמיתית מוגבל והטעויות יקרות.
ציטוט: Hathaway, J., Rastegarpanah, A. & Stolkin, R. End-to-end example-based sim-to-real RL policy transfer based on neural stylisation with application to robotic cutting. Sci Rep 16, 13240 (2026). https://doi.org/10.1038/s41598-026-41735-5
מילות מפתח: העברה מסימולציה למציאות, חיתוך רובוטי, למידת חיזוק, העברת סגנון נוירלית, הסתגלות תחומית