Clear Sky Science · he

UncerTrans: מעבד-זמן רגיש לאי-ודאות לחיזוי פעולות מוקדם

· חזרה לאינדקס

למה לראות פעולות מוקדם יכול לשמור עלינו

דמיינו רובוט בית שיכול לומר, כבר מהתנועת פרק כף היד הראשונה, האם מישהו עומד לשפוך מים חמים בבטחה לתוך ספל או בכוונה לא מכוונת להדוף את הקומקום. במפעלים, בתי חולים ובבתים חכמים, מכונות חולקות יותר ויותר מרחב עם אנשים, ולהגיב רק אחרי שהתחיל אירוע הוא מאוחר מדי. מאמר זה מציג את UncerTrans, מערכת בינה מלאכותית חדשה שמנבאת לא רק מה סביר שאדם יעשה על בסיס תחילת הפעולה, אלא גם מציינת עד כמה היא בטוחה בתחזיתה — יכולת חיונית כשמדובר בבטיחות אנושית.

Figure 1
Figure 1.

מצפייה לחיזוי פעולות אנושיות

רוב מערכות הראייה הממוחשבת כיום מזהות מה מישהו עושה רק לאחר שהפעולה כמעט הושלמה: הן מסווגות קטע וידאו מלא כ"חיתוך ירקות" או "הרמת ספל". זה מועיל לניתוח לאחר מעשה, אך לא למניעת כוויות, התנגשות או נפילות. חיזוי פעולה מוקדם מתמודד עם בעיה קשה יותר: להחליט איזו פעולה מלאה עומדת להתבצע לאחר שראו רק 10–20% ממנה. האתגר הוא שרבות מהפעולות נראות דומות בתחילתן — הושטת יד אל הקומקום עשויה להצביע על שופך משקה או על הפיכה של הקומקום — ולכן המערכת חייבת לפעול עם מעט מידע ולהימנע ממטעויות מסוכנות.

להכשיר מכונה להתרכז ברגעים הנכונים

UncerTrans פותר זאת באמצעות טרנספורמר תזמיתי, ארכיטקטורת רשת עצבית מודרנית שפותחה במקור לשפה. במקום לקרוא מילים במשפט, הוא בוחן קטעי וידאו קצרים לאורך הזמן. המודל מחלק רצף פעולה מוקדם למספר מקטעים ומשתמש במנגנון קשב כדי להחליט אילו רגעים חשובים ביותר. למסגרות האחרונות ניתן משקל נוסף, בהדהוד מתוך האינטואיציה שלנו שהתנועה האחרונה בדרך כלל חושפת את הכוונה הברורה ביותר. העיצוב הזה מאפשר למערכת לקלוט גם פרטים עדינים, כמו תנועת אצבע, וגם דפוסים רחבים יותר, כמו מסלול הזרוע, אפילו כשהיא רואה רק חלק קטן מהפעולה המלאה.

להרגיל מכונה להודות כאשר אינה בטוחה

חידוש מרכזי של UncerTrans הוא שאינו מסתפק בתשובה חדה אחת. במקום זאת, הוא מריץ את אותו קלט דרך הרשת מספר רב של פעמים כשהוא משנה קלות בין הריצות באמצעות טכניקה הנקראת Monte Carlo dropout. בכל ריצה נחתכים חיבורים פנימיים שונים באקראי, מה שמפיק תחזית מעט שונה. על ידי בחינת מידת הוויכוח בין התחזיות האלו, המערכת יכולה לאמוד את אי-הוודאות שלה: תחזיות מרוכזות קרובות מצביעות על ביטחון גבוה, בעוד פיזור התחזיות מאותת על ספק. UncerTrans אף מפריד בין אי-וודאות הנובעת מניסיון אימון מוגבל לבין רעש בווידאו עצמו, ומתאים את מספר הריצות המבחן בזמן אמת — משתמש ביותר ריצות כשהדגימות הראשוניות נראות אמביגואליות ופחות כשהן כבר מסכימות.

Figure 2
Figure 2.

להפוך ביטחון להחלטות בטוחות יותר

לדעת מתי אתה עלול לטעות מועיל רק אם זה משנה את ההתנהגות. UncerTrans ממיר את הערכות הביטחון שלו לבחירות פרקטיות. עבור תחזיות עם אי-וודאות נמוכה, המערכת יכולה לפעול בנחישות — למשל להפעיל אזהרה או להזיז זרוע רובוטית כדי למנוע סכנה. כשאי-הוודאות בינונית, היא יכולה לבחור בהתנהגויות שמרניות ובטוחות יותר, כמו להאט את הרובוט או לבקש מידע נוסף. אם אי-הוודאות גבוהה מאוד, היא עשויה לסרב להחליט ולהמשיך לצפות. ניסויים על מאגר וידאו גדול בסגנון "מבט ראשון" במטבח מראים כי UncerTrans חוזה פעולות קרובות בדיוק גבוה יותר לעומת מספר חלופות חזקות, במיוחד כשנראים רק 10% הראשונים של הפעולה. באופן בולט, כאשר מסננים החוצה רק את 30% המקרים הכי בלתי-ודאיים, הדיוק בתחזיות הנותרות עולה לכ־84%, מה שמדגים את הערך הממשי של סינון המודע לאי-וודאות.

מה משמעות הדבר לשיתוף פעולה יומיומי בין אדם לרובוט

למי שאינו מומחה, המסר ברור: UncerTrans הוא צעד לקראת מכונות שלא רק מנחשות את הצעד הבא שלנו מתוך רמזים מוגבלים, אלא גם יודעות מתי התחזיות הללו אמינות. על ידי שילוב מודל ראייה רגיש לזמן עם "מד-ביטחון" פנימי, המערכת יכולה להגיב מהר ובבטחה בסביבות אמיתיות ומסובכות כגון מטבחים, מפעלים ומוסדות טיפול. אף שהשיטה עדיין כרוכה בעלויות חישוביות ותדרוש שיפור נוסף, היא מציעה מתווה מבטיח לרובוטים ומערכות ניטור עתידיות שיחזו סכנות מוקדם, יגיבו בזהירות כשיש ספק, ולבסוף ישתלבו בבטחה רבה יותר במרחבים אנושיים.

ציטוט: Zhai, X., Liu, Y. UncerTrans: uncertainty-aware temporal transformer for early action prediction. Sci Rep 16, 7068 (2026). https://doi.org/10.1038/s41598-026-38107-4

מילות מפתח: חיזוי פעולה מוקדם, שיתוף פעולה בין אדם לרובוט, אי-ודאות בבינה מלאכותית, מודלי ויז'ן מבוססי טרנספורמר, מערכות חכמות ובטוחות