Clear Sky Science · he

SLAM חזותי-תנודתי משודרג באמצעות SuperPoint וזיהוי תכונות דינמיות גיאומטריות וסמנטיות

2026-03-31 · חזרה לאינדקס

ניווט חכם יותר בעולם בתנועה

רובוטים, רחפנים וקסדות מציאות רבודה צריכים לדעת בדיוק היכן הם נמצאים בעוד העולם שסביבם ממשיך לזוז. מערכות מיפוי מסורתיות עלולות להתבלבל מאנשים הולכים או מרכבים חולפים, מה שעלול לגרום לחצים דיגיטליים לסטות מהכביש או לרובוט לשגות בדרכו. מחקר זה מציג את SuperDynaSLAM, שיטה לניווט שתוכננה לשמור על מיקום אמין יותר בסצנות עמוסות ומשתנות, תוך שימוש בכלי בינה מלאכותית מודרניים וחיישני תנועה.

Figure 1. מיפוי של רובוט או קסדת מציאות מדומה בסצנות פנימיות וחיצוניות עמוסות תוך התעלמות מאנשים וממכוניות בתנועה.

לראות ולהרגיש תנועה ביחד

מערכות ניווט רבות נשענות על מצלמות וטכניקת SLAM כדי לבנות מפה ולעקוב אחרי המסלול בו־זמנית. מערכות ישנות בוחרות נקודות מובחנות בתמונה באמצעות כללים מעשה-יד, שפועלים היטב בסצנות רגועות ומוארות אך נכשלות לעתים כאשר המצלמה רועדת או התאורה משתנה במהירות. SuperDynaSLAM משדרג את החזית הזו באמצעות מאתר תכונות למידתי בשם SuperPoint, שאומן על מבטים רבים של סצנות אמיתיות ולכן יכול לזהות עוגני חזות אמינים גם כאשר המצלמה זזה בחוזקה או שהמראה משתנה רבות. המערכת גם עושה שימוש ביחידת חיישני תנועה על הגוף, שמודדת כיצד המכשיר מסתובב ומואץ בין מסגרות הצילום.

להפריד בין הרקע לבין עצמים נעים

אתגר מרכזי עבור כל מערכת ניווט מבוססת ראייה הוא שלא כל מה שנראה בתמונה קבוע במקומו. אנשים, רכבים ועצמים נעים אחרים יוצרים רמזים חזותיים מטעהים. SuperDynaSLAM מטפל בכך בתהליך דו‑שלבי. ראשית, הוא מפעיל מודל למידת עומק בשם Mask R-CNN על כל תמונה כדי לצייר קווי מתאר גסים סביב עצמים שיכולים לזוז, כגון כלי רכב והולכי רגל. נקודות התכונה ש-SuperPoint מוצא מקובצות אז לשלושה סוגים פשוטים לפי היכן הן נופלות: רקע, כלי רכב והולכי רגל. ההתאמה בין נקודות מותרת רק בתוך אותו סוג, מה שמצמצם כבר טעויות ברורות, כמו התאמת פינת בניין לרכב חולף.

שימוש ברמזי תנועה כדי לזהות מה באמת זז

עם זאת, לא כל אזור בצורת רכב או אדם באמת נע ברגע מסוים. רכב חונה אמור לעזור למפה, לא לפגוע בה. בשלב השני, SuperDynaSLAM משתמש בקריאות חיישן התנועה כדי לחשב כיצד נקודה אמיתית וקבועה בסצנה אמורה להזיז בין שתי תמונות מצלמה. הוא משווה את ההזזה הצפויה הזו למה שהמצלמה רואה בפועל עבור כמה נקודות דגימה על כל עצם שעשוי לזוז. אם נקודות על עצם סוטות מדי מהמסלול הצפוי, המערכת מסיקה שהעצם נע ומסמנת את כל נקודותיו כבלתי מהימנות. אם הן נשארות קרובות, העצם מטופל כחלק מהסצנה היציבה. סינון סלקטיבי זה מאפשר למערכת להשליך מידע מטעה בעוד שהיא שומרת כמה שיותר פרטים מועילים.

Figure 2. מערכת המשווה רמזי חיישן תנועה ושינויים בתמונה כדי להסיר נקודות על עצמים נעים מהמפה.

נבדק ברחובות וירטואליים, משרדים ושווקים

החוקרים בחנו את SuperDynaSLAM על שלוש אוספות נתונים תובעניות. סט אחד הגיע מטיסות פנימיות אמיתיות עם תנועה מהירה ושינויי תאורה. סט נוסף היה עיר ומגרש חניה מדומים שבהם רמת התנועה יכלה להיות מווסתת מרחובות ריקים ועד זרימה כבדה. השלישי היה רובוט שנע דרך משרדים, בתים, שווקים ובתי קפה אמיתיים מלאים בקונים נעים ובבלגן. ברוב הניסויים הללו, במיוחד כשמספר העצמים הנעים היה גדול או שתנועת המצלמה חדה, SuperDynaSLAM עקב אחרי הנתיב האמיתי בקירוב טוב יותר ובפחות רעידות מאשר מערכות מובילות התלויות בתכונות חזותיות ותיקות או בסוג אחד בלבד של רמזים.

משמעות הדבר לניווט יומיומי

עבור הקורא הממוצע, המסר המרכזי הוא ש‑SuperDynaSLAM מסייע למכונות להתמקד במה יציב ומהימן בסצנה ולהתעלם מתנועות מסיחות דעת. על ידי שילוב תכונות חזותיות שלמדו, מודעות לעצמים וחישה תנועתית, הוא בונה מפות מדויקות יותר ועוקב אחרי מיקומו בצורה יציבה יותר, גם בסביבות צפופות או משתנות במהירות. למרות שזו גובה עלות חישובית גבוהה יותר והמערכת עדיין עלולה לפספס עצמים נעים בלתי שגרתיים, הגישה מהווה צעד מעשי לעבר ניווט אמין יותר לרכבים אוטונומיים, רובוטי משלוחים והתקנים מציאותיים או מעורבים סוחפים.

ציטוט: Cui, J., Huang, Y. & Wang, L. Enhanced visual-inertial SLAM Using SuperPoint and semantic geometric dynamic feature detection. Sci Rep 16, 15538 (2026). https://doi.org/10.1038/s41598-026-46629-0

מילות מפתח: SLAM חזותי-תנודתי, סביבות דינמיות, חילוץ תכונות, ניווט רובוטי, ראייה ממוחשבת