Clear Sky Science · he

MDI-YOLO — מודל קל משקל מבוסס משתלב טרנספורמר‑CNN למיזוג תכונות רב־ממדיות לזיהוי עצמים קטנים

· חזרה לאינדקס

עיניים חדות יותר בשמיים

מתצפית תנועה ועד מענה לאסונות — רחפנים ולוויינים צופים יותר ויותר בעולם שלנו. עם זאת, הדברים שחשובים לנו בתמונות אלה — מכוניות זעירות, אנשים, סירות ומטוסים — לעיתים מופיעים כרק כמה פיקסלים בודדים. המאמר על MDI‑YOLO בוחן שאלה פשוטה אך חשובה: כיצד מחשבים יכולים לזהות באופן אמין עצמים קטנים אלה בזמן אמת, גם על מכשירים בעלי הספק נמוך שמותקנים על הרחפנים עצמם?

Figure 1
Figure 1.

מדוע קשה לזהות עצמים קטנים

בתצפיות אוויריות ולווייניות, העצמים שמעניינים אותנו בדרך כלל קטנים מאוד, לעתים צפופים זה כנגד זה ומוסתרים חלקית על־ידי מבנים, עצים או צללים. מערכות זיהוי סטנדרטיות עומדות מול דילמה: מודלים קלילים רצים מהר על התקני קצה כמו מחשבי רחפן אך מפספסים מטרות קטנות רבות; מודלים כבדים ומדויקים יותר איטיים וצורכים משאבים רבים מדי לשימוש בשטח. עצמים קטנים גם נוטים להיטמע ברקעים מורכבים — חשבו על מכוניות אפורות על כבישים אפורים — ולכן התכונות המבדילות שלהן עלולות להיעלם כאשר תמונות נלחצות ומעובדות על־ידי רשתות עמוקות.

שילוב חדש של ראייה גלובלית ומקומית

החוקרים מציעים את MDI‑YOLO, גרסה מעוצבת מחדש של מאבחן YOLOv8 הפופולרי שמשמרת קומפקטיות תוך שיפור היכולת לאתר מטרות זעירות. בלב הגישה נמצא בלוק בנייה חדש בשם C2f‑MCC, שמפריד את המידע הוויזואלי הזורם דרך הרשת לשני מסלולים. מסלול אחד משתמש בעיבוד בסגנון טרנספורמר, המתמחה בלכידת יחסים לטווח ארוך לאורך כל התמונה — למשל כיצד קבוצת פיקסלים משתלבת בכביש או במסלול גדול יותר. המסלול השני נשאר עם מסנני קונבולוציה קלאסיים, שמצטיינים בזיהוי פרטים מקומיים כמו קצוות ומרקמים. על ידי חלוקה לפי ערוצי תכונה ושליחת רק חלק מהמידע דרך מסלול הטרנספורמר הכבד יותר, המודל מרוויח מודעות גלובלית מבלי להתרחב משמעותית או להאט.

לעזור לרשת להתמקד במה שחשוב

אפילו עם בלוקים טובים יותר, הרשת עדיין צריכה להחליט היכן לשים את תשומת הלב. כדי לכוון זאת, המחברים מציגים מנגנון שהם קוראים לו Directional Fusion Attention (DFA). המודול בוחן דפוסים לאורך רוחב וגובה התמונה, וכן תקציר כולל של הסצנה, ולומד כיצד להעניק משקל לאזורים שונים ולערוצי תכונה שונים. בפועל, DFA מעודד את המודל להתרכז באזורים בהם סביר שיהיו עצמים — כמו כתמי צורה של כלי רכב על כבישים — ולהמעיט מחשיבותם של מרקמים רקעיים חוזרים או מבלבלים. השילוב של מיקוד מרחבי וערוצי מקל על ההפרדה בין מטרות זעירות לסביבה עמוסה או לאזורים ברקע שנראים דומים.

Figure 2
Figure 2.

שרטוט תיבות מדויק יותר סביב מטרות זעירות

לזהות עצם זו רק מחצית המטלה; המאתר צריך גם לתחום אותו בדיוק. שיטות אימון סטנדרטיות משוות מלבנים חזויות לאמיתיים באמצעות סכום חפיפה, אך זה עלול להיות לא רגיש כשעצמים קטנים או בעלי צורה לא רגילה. המחברים מעצבים פונקציית אובדן חדשה, Inner‑Shape‑IoU, השופטת תיבות לא רק לפי מידת החפיפה אלא גם לפי התאמת הצורה, הגודל והאזור המרכזי שלהם לאובייקט האמיתי. על ידי שילוב של שני מדדים משלימים, היא מענישה תיבות שמתאימות רק לקצוות בעוד שהן מפספסות את לב המטרה, מה שמוביל לשרטוטים מדויקים יותר — במיוחד עבור עצמים קטנים, צפופים או מוארכים.

רווחים מוכחים ללא נפח נוסף

כדי לבדוק את MDI‑YOLO, הצוות ערך ניסויים בשני מאגרי בדיקה ציבוריים מאתגרים: VisDrone2019, הכולל קטעי וידאו של רחפנים בערים ובתעבורה, ו‑DOTAv1.0, אוסף גדול של סצנות אוויריות עם עצמים קטנים ורבים ודחוסים. מבלי להסתמך על מודלים מאומנים מראש, MDI‑YOLO שיפר את ציוני הדיוק הסטנדרטיים בכמה נקודות אחוז ביחס לקו הבסיס של YOLOv8 בעוד שמספר הפרמטרים כמעט שלא השתנה וזמני המפענח נותרו גבוהים ומהירים. בהשוואה למגוון מאבחנים פופולריים — ממגוון גרסאות YOLO קלילות ועד מערכות כבדות מבוססות טרנספורמר — הוא הציע שילוב נדיר של דיוק גבוה, עלות חישובית נמוכה וחוסן בסצנות שונות.

מה המשמעות לשימוש במציאות

עבור קוראים שאינם מומחים, המסקנה היא ש‑MDI‑YOLO מעניק לרחפנים ולמערכות חישה מרחוק "עיניים" חדות ומהימנות יותר ללא דרישה למחשבים גדולים וצרי־אנרגיה. על‑ידי שילוב חכם של הקשר גלובלי, פרטים מקומיים, תשומת לב ממוקדת ושיטת אימון יותר מבחינה לתיבות הגבלה, השיטה מקלה על זיהוי עצמים זעירים שחשובים לבטיחות, למעקב ולמיפוי. סוג זה של ראייה יעילה ובעלת דיוק גבוה הוא צעד מרכזי לקראת פלטפורמות אוויריות חכמות שיכולות לפעול באופן אוטונומי, להגיב במהירות ולהיות פרוסות ברמה נרחבת בעולם האמיתי.

ציטוט: Shi, H., Wu, Y., Xu, Y. et al. MDI-YOLO a lightweight transformer-CNN-based multidimensional feature fusion model for small object detection. Sci Rep 16, 7233 (2026). https://doi.org/10.1038/s41598-026-38378-x

מילות מפתח: דימות רחפן, זיהוי עצמים קטנים, חישה מרחוק, YOLO, ראייה ממוחשבת