Clear Sky Science · he

טרנספורמר תשומת‑לב מרובה‑ממדית לזיהוי רכבים והולכי רגל במזג אוויר קשה

· חזרה לאינדקס

מדוע חשוב לראות דרך מזג אוויר קשה

מכוניות מודרניות ומצלמות עירוניות לומדות "לראות" את הדרך עבורנו, לזהות כלי רכב והולכי רגל במהירות כזו שהן יכולות לסייע במניעת תאונות. עם זאת, גשם, ערפל וחושך עדיין מבלבלים רבים מהמערכות הללו, ומסתירים אנשים וכלי רכב בדיוק ברגע שבו הבטיחות חשובה ביותר. מאמר זה מציג את MDAT‑YOLO, מודל חזון‑ממוחשב חדש שנועד להמשיך לזהות משתמשי דרך במהירות ובאמינות גם בערפל כבד, גשם חזק ותנאי תאורה חלשים.

Figure 1
Figure 1.

האתגר של נהיגה בעולם האמיתי

שנים רבות החוקרים שיפרו זיהוי אובייקטים אוטומטי באמצעות מודלים חזקים של למידה עמוקה כמו YOLO, הסורקים תמונות ומסמנים בזמן אמת מכוניות, אוטובוסים, אופניים ואנשים. רוב המודלים האלה, עם זאת, מאומנים ומותאמים בתנאי יום ובהירות ברורים. כאשר הראות יורדת—בלילה, בערפל או במהלך מטר—האובייקטים נעשים עמומים, מטושטשים או מוסתרים חלקית. משתמשי דרך קטנים או מרוחקים קלים במיוחד להחמיץ. גישות קיימות לעתים מתמחות בסוג מזג אוויר בודד, או שמחברות מספר רשתות כבדות שמאיטות ומסבכות את השימוש בזמן אמת בנהיגה ובפיקוח.

דרך חכמה יותר למקד את תשומת הלב

MDAT‑YOLO מתחיל מגרסה קומפקטית של גלאי פופולרי ומעצב מחדש את בלוקי הבנייה הפנימיים כך שיוכלו להסתגל לסצנות קשות במקום לטפל בכל תמונה באותה דרך קשיחה. הרעיון המרכזי הוא לאפשר למודל להחליט, בזמן אמת, היכן למקד את תשומת הלב בתמונה וכיצד לעבד סוגים שונים של דפוסי ויזואליים. שני רכיבים חדשים מניעים התנהגות זו. שכבת קונבולוציה עומק‑חסונה (depthwise) מותאמת מחדש מעצבת את זרימת המידע בין ערוצי הצבע, מה שהופך את הרשת לקלה יותר אך בעלת הבעה חזותית גבוהה יותר. מודול שני, הנקרא קונבולוציה דינמית אומי‑ממדית, מתאים את המסננים שלו לא רק במרחב אלא גם בין ערוצי תכונה שונים ובין מערכי פילטרים חלופיים. יחד הם מאפשרים למודל להגיב בצורה שונה לערפל כבד, לסנוור חזק או לקווי גשם רעשניים מבלי להאט.

הוספת הקשר גלובלי ללא האטה

מעבר לשיפור הפרטים המקומיים, המחברים מעניקים למודל הבנה טובה יותר של הסצנה כולה. הם מציגים בלוק טרנספורמר קל־משקל—שנמצא בשימוש נפוץ במודלי שפה—הלומד יחסים לטווח ארוך בתמונה. במקום להחיל טרנספורמר גדול ויקר בכל מקום, הם טווים גרסה מוקטנת של המבנה בשלבים מרכזיים של הרשת. זה מסייע לגלאי להבין שמסגרת עמומה ברקע סביר להניח שהיא רכב על הכביש ולא רעש אקראי, וששידות קטנות של פיקסלים עשויות להשתייך להולך רגל המוסתר חלקית על ידי ערפל או גשם.

Figure 2
Figure 2.

מבחנים של המודל בתנאי מזג אוויר קשים

כדי לשפוט האם שינויים בעיצוב אכן עוזרים, החוקרים בדקו את MDAT‑YOLO על מספר אוספים תצלומים תובעניים. אלה כוללים סט אמיתי של תמונות בערפל, עשן וגשם; סט לילה בתנאי תאורה נמוכה; גרסה ערפלית חדשה של מטרי ידוע; וסט סצנות גשומות אמיתיות. על פני כולם, המודל החדש זיהה מכוניות, אוטובוסים, אופנועים, אופניים ואנשים בדיוק גבוה יותר מאשר וריאציות YOLO עדכניות ושיטות מתקדמות אחרות. הוא היה חזק במיוחד בזיהוי כלי רכב בערפל כבד ואנשים בסצנות חשוכות. לא פחות חשוב, המודל שמר על מהירויות בזמן אמת, מעבד עד כ‑145 תמונות לשנייה על חומרה מודרנית—מהירות מספקת לשימוש ברכבים נעים ובפיקוח תעבורתי חי.

מה המשמעות של זה לבטיחות היומיומית

במילים פשוטות, MDAT‑YOLO הוא צעד לקראת מצלמות ומחשבים ניידים ברכב שממשיכים לעבוד באמינות כאשר מזג האוויר נהיה קשה. על ידי שילוב בלוקים יעילים עם תשומת לב גמישה והקשר גלובלי, המערכת "מביטה חזק יותר" על עצמים עמומים, קטנים או מוסתרים חלקית מבלי להפוך לכבדה או איטית. אמנם נדרשים עוד ניסויים על נתונים רחבים ומייצגים במלואם מהעולם האמיתי, התוצאות מצביעות על כך שמערכות סיוע לנהג עתידיות, רכבים אוטונומיים ומצלמות צדי‑דרך עשויים לפספס פחות משתמשי דרך בערפל, בגשם ובחושך—ולסייע להפוך את הרחובות לבטוחים יותר גם בימים הקשים ביותר.

ציטוט: Biswas, S., Kumar, J., Mitra, A. et al. Multi-dimensional attention transformer for vehicle and pedestrian detection in adverse weather. Sci Rep 16, 12624 (2026). https://doi.org/10.1038/s41598-026-40319-7

מילות מפתח: נהיגה אוטונומית, זיהוי עצמים, מזג אוויר קשה, חזון ממוחשב, בטיחות בדרכים