Clear Sky Science · he

SV-TransFusion לגילוי עצמים תלת־ממדי בלידר עם אינטראקציה בין ווקסלים דלילים לשאילתות

· חזרה לאינדקס

לראות את הדרך בממדים תלת־ממדיים

מכוניות נהיגה עצמית חייבות לזהות ולעקוב אחרי כל מה שסביבן — ממכולות ומשאיות ועד רוכבים והולכי רגל — בתנאי מזג תעבורה ומזג אוויר שונים. מערכות רבות מסתמכות על לידר, חיישן מבוסס לייזר הבונה תמונה תלת־ממדית של הסביבה. עם זאת, רוב האלגוריתמים הנוכחיים לדחוס את המידע התלת־ממדי העשיר הזה לתצוגת מבט‑על שטוחה, מה שמקל על החישובים אך מפסיד פרטים חשובים לגבי הגובה. מאמר זה מציג את SV-TransFusion, שיטה חדשה שמאפשרת למחשבים לשמר ולנצל את המבנה התלת־ממדי החסר הזה, מה שמוביל לזיהוי עצמים על הכביש בטוח ואמין יותר.

למה העתקת נתוני 3D לשטח יכולה להיות מסוכנת

גלאי הלידר המובילים כיום בדרך כלל ממירים ענני נקודות — מיליוני מדידות מרחק המפוזרות במרחב — לתמונה במבט‑על. במפה השטוחה הזו כל פיקסל מסכם את כל מה שנמצא מעליו וממזג עצמים שעשויים להיות שונים מאוד בגובה. הולך רגל לצד עמוד גבוה, או מחסום בנייה נמוך ליד משאית, יכולים להיראות כמעט זהים כאשר מתבוננים רק מלמעלה. קיצור דרך זה מזרז את העיבוד, אך גם יוצר חיבוך, במיוחד בסצנות עמוסות או כאשר עצמים קטנים וגבוהים חולקים את אותו טביעת רגל על הכביש.

Figure 1
Figure 1.

לאפשר למחשב להסתכל חזרה לתוך ה־3D

SV-TransFusion מתמודד עם הבעיה על ידי פתיחת קו ישיר מחדש בין אלגוריתם הזיהוי לבין המבנה התלת־ממדי המקורי. במקום לאפשר ל"שאילתות עצם" הפנימיות לראות רק את המפה השטוחה, המערכת מאפשרת להן להגיע באופן סלקטיבי לתאים תלת־ממדיים קרובים, או ווקסלים, שממשיכים להכיל מידע מפורט על גובה וצורה. מודול מיוחד, שנקרא אינטראקציה בין ווקסלים דלילים לשאילתות (Sparse Voxel‑Query Interaction), מחפש סביב כל מיקום עצם זמני ואוסף רק את הווקסלים שאינם ריקים בשכונה זו. על ידי מיקוד תשומת הלב בנקודות שנמדדו בפועל, במקום במרחב הריק, המודל משחזר רמזים אנכיים עדינים שהיו הולכים לאיבוד אחרת.

למידה מהירה וברורה דרך דוגמאות רעשיות

טרנספורמרים, הרשתות העמוקות שעומדות מאחורי מערכות ראייה ושפה מודרניות רבות, הן עוצמתיות אך לעתים קרובות איטיות ובלתי יציבות לאימון למשימות זיהוי. המחברים מציעים מתכון אימון שנקרא Denoising Contrastive מבוסס‑שאילתות (Query‑based Contrastive Denoising) כדי להתמודד עם זאת. במהלך האימון הם מוסיפים בכוונה רעש לרמזי עצמים אידיאליים — מזיזים וממשיכים במעט את התיבות שמסמנות מכוניות, הולכי רגל או אופניים — ואז מבקשים מן המודל לתקן את הניחושים המרעישים הללו. במקביל הם מעודדים שהתכונות הפנימיות עבור אותו סוג עצם יתאגדו יחד, תוך דחיפת סוגים שונים זה מזה. השילוב הזה מסייע למערכת ללמוד במהירות מה מבדיל, למשל, אוטובוס ממשאית או מרעש רקע, אפילו כשהם נראים דומים במבט השטוח.

Figure 2
Figure 2.

הוכחת התועלות על נתונים רחוביים אמיתיים

הצוות בחן את SV‑TransFusion על nuScenes, מאגר נתונים נפוץ לנהיגה אוטונומית עם תנועה עירונית מורכבת. בהשוואה לשיטות חזקות קיימות, כולל מודל TransFusion הפופולרי, SV‑TransFusion זיהה עצמים בדיוק רב יותר ואמד את כיוונם ותנועתם באופן אמין יותר, וזאת עם עלייה מתונה בלבד בחישוב. השיפורים היו בולטים במיוחד בקטגוריות רגישות לגובה כגון הולכי רגל ואופניים, ובפעמים שבהן עצמים רחוקים או מוסתרים חלקית — בדיוק המקרים שבהם אובדן הפרטים האנכיים מזיק ביותר. הגישה גם שיפרה מגוון של גב‎־יונקי לידר, מה שמראה שניתן לשלב אותה במערכות רבות קיימות.

מה המשמעות לזהות בטוחה יותר

במונחים פשוטים, SV‑TransFusion מאפשר למכוניות נהיגה עצמית "לחשוב" שוב בתלת‑ממד, בלי לוותר על מהירות. על ידי מתן אפשרות למודולים של זיהוי להיתמך במדידות התלת‑ממד הגולמיות ועל ידי אימונם עם דוגמאות רעשיות וקונטרסטיביות, השיטה מספקת הבנה חדה ואמינה יותר של סצנת הדרך. משמעות הדבר היא זיהוי טוב יותר של משתמשי דרך פגיעים, הפרדה ברורה יותר של כלי רכב שנראים דומים ומעקב תנועתי בטוח ובעל ביטחון גבוה — כל אלה מרכיבים חיוניים לנהיגה אוטונומית בזמן אמת ובטוחה.

ציטוט: Shi, T. SV-TransFusion for LiDAR 3D object detection with Sparse Voxel–Query Interaction. Sci Rep 16, 13375 (2026). https://doi.org/10.1038/s41598-026-42093-y

מילות מפתח: גילוי עצמים תלת־ממדי בלידר, נהיגה אוטונומית, מודלי טרנספורמר, ווקסלים דלילים, תפיסה במבט על