Clear Sky Science · he

מודל קל משקל LMW-YOLO לזיהוי עצמים קטנים בתמונות חישה מרחוק

· חזרה לאינדקס

לראות את הדברים הקטנים מהחלל

מתנועה עירונית ועד ספינות בנמל — רבות מהתופעות החשובות על פני כדור הארץ מופיעות ככתמים זעירים בתמונות אוויריות ולווייניות. עם זאת, ללמד מחשבים לזהות בעקביות עצמים קטנים אלה קשה מהצפוי, במיוחד על מכשירים קלים כמו רחפנים או לוויינים קטנים. מאמר זה מציג את LMW-YOLO, מערכת ויזואלית קומפקטית אך חזקה שנבנתה במיוחד כדי למצוא עצמים זעירים בתמונות חישה מרחוק גדולות ומסובכות, מבלי לדרוש כוח מחשוב כבד.

מדוע מטרות זעירות קשות לאיתור

תמונות חישה מרחוק נ tomadas מרום רב, ולכן מכוניות, סירות ואנשים מופיעים לעתים כמה פיקסלים בלבד ברוחב. גלאי עצמים סטנדרטיים, כגון משפחת YOLO הפופולרית, מקטינים את התמונה שכבה אחר שכבה כדי להאיץ עיבוד וללכוד דפוסים ברמה גבוהה. אך עבור עצמים ברוחב 5–10 פיקסלים בלבד, ההתמרה הזו יכולה למחוק אותם עוד לפני שהרשת "רואה" אותם. ניסיונות קודמים לתקן את הבעיה התבססו בדרך כלל על רשתות עמוקות יותר, מנגנוני תשומת לב או מודלים בסגנון Transformer. גישות אלה יכולות לשפר את הדיוק, אך הן נוטות להיות כבדות מדי עבור רחפנים, לוויינים או מכשירי קצה בעלי זיכרון והספק מוגבלים. קיימת מתיחות בין השאיפה לשמר מודלים קטנים ובין הצורך לשמור מספיק פרטים כדי לזהות מטרות זעירות ברקע מורכב של מבנים, עצים ומים.

התאמת הרשת לכל רמה

LMW-YOLO מתחיל ממבנה גב (backbone) מודרני וקל משקל של YOLO ואז שובש מנהג עיצוב נפוץ: התייחסות אחידה לכל השכבות. במקום להשתמש בבלוק אחיד בכל מקום, המחברים מציעים אסטרטגיה של "ניתוק-הקשר-ומדרג" (Context-Scale Decoupled) שנותנת לכל חלק ברשת תפקיד מיוחד. בשלב השטחי, שבו התמונות עדיין יחסית גדולות, המודל מתקשה לראות מספיק כדי לפרש עצמים זעירים בהקשר. כאן מוסיפים מודול אגירת הקשר בעל גרעין גדול (Large-Kernel Context Aggregation, LKCA) המדמה חלונות מסנן ענקיים על ידי שילוב מספר קונבולוציות קטנות ויעילות. הדבר מאפשר לרשת לסקור שטח רחב יותר תוך שמירה על פרטים עדינים החשובים למכוניות או ספינות קטנטנות. בשלב האמצעי, האתגר משתנה: המודל צריך להתמודד עם עצמים בעלי גדלים שונים מבלי לאבד חידוד מרחבי.

Figure 1
Figure 1.

מבט על מספר מדרגים במקביל

כדי להתמודד עם שונות זו, המחברים מציגים מודול תפיסה מדוללת רב-מדרגית (Multi-Scale Dilated Perception, MSDP) במפות התכונה העמוקות יותר. מודול זה מפריד את המידע לשני מסלולים. מסלול אחד עובר ללא שינוי, ושומר על פרטי מיקום חדים. המסלול השני עובר דרך סדרת סניפים מקביליים של קונבולוציות שכל אחד מהם "רואה" בטווחים שונים — ממקומי מאוד ועד אזורים רחבים יותר — בזכות מסננים מדוללים עם פערים שונים. על ידי שילוב מחדש של הזרמים הללו, הרשת מקבלת מבט רב-מדרגי עשיר: היא יכולה להבחין בין כלי רכב קטנטנים צפופים, ספינות גדולות ומבנים ארוכים כמו גשרים, וכל זאת תוך שמירה על עלות פרמטרים וחישוב נמוכה מאוד. יחד, LKCA ו-MSDP מאפשרים לרשת לשלב תשומת לב לפרטים מקומיים ולקשר רחב בשכבות שבהן כל אחד חשוב ביותר.

למידה חכמה יותר מנתונים לא מושלמים

גם עם תכונות טובות יותר, אימון על נתוני אוויר אמיתיים הוא מאתגר. מערכי נתונים של חישה מרחוק מכילים לעתים תוויות רועשות, עצמים חלקית מוסתרים או צורות משונות שמבלבלות פונקציות אובדן קונבנציונליות. רבים מהדגמי YOLO משתמשים בכללים קבועים המטפלים בכל דוגמאות האימון באותה צורה, מה שעלול לאפשר לכמה דוגמאות בעייתיות ליצור עדכונים מטעה ולגרום לאימון להאט או להתנודד. LMW-YOLO מחליף זאת בסכימה שנקראת Wise-IoU v3, שמתאמת עד כמה כל דוגמה משפיעה על האימון בהתבסס על עד כמה היא מתאימה כרגע. דוגמאות שכבר טובות מאוד או ברורות כגרועות מקבלות משקל מופחת, בעוד שמקרי "קשה אך שימושי" מודגשים. מיקוד דינמי זה מסייע למודל להתכנס מהר יותר ומשפר את הדיוק שבה מתוכננות התיבות סביב עצמים קטנים וצפופים.

Figure 2
Figure 2.

הוכחה שזה עובד במציאות

הצוות בודק את LMW-YOLO על שלושה מבחנים תובעניים: מאגר לווייני ברזולוציה גבוהה (NWPU VHR-10), אוסף מיוחד של מטרות זעירות ביותר (RS-STOD), ומאגר תמונות רחפנים גדול עם צפיפות גבוהה והסתתרות חזקה (VisDrone2019). בכל השלושה, המודל החדש עולה על מגוון גלאים אחרונים, כולל כמה מערכות גדולות ומורכבות יותר, בעוד שמשתמש בכמעט 2.6 מיליון פרמטרים בלבד ובחישוב צנוע. הוא גם רץ בזמן אמת או קרוב לכך על מעבדי CPU סטנדרטיים, דבר שמצביע על כך שהמוצר מעשי לפריסה על רחפנים ופלטפורמות קטנות — לא רק במרכזי נתונים עוצמתיים.

מה המשמעות מכאן והלאה

לקריאה, המסר המרכזי הוא שאיננו חייבים עוד לבחור באופן קיצוני בין דיוק ויעילות כשמדובר בזיהוי עצמים זעירים ממעוף הציפור. על ידי התאמה זהירה של האופן שבו שכבות שונות ברשת מטפלות בפרט ו בהקשר, ובהכשרה באמצעות פונקציית אובדן שלומדת להתעלם מדוגמאות מטעות, LMW-YOLO מספק זיהויים חד־חדים ואמינים יותר תוך שמירה על גודל שמעשיר לפריסה במכשירים אוויריים ולווייניים אמיתיים. זהו בלוק בניין מבטיח ליישומים שנעים במעקב תנועה, אבטחת נמלים, תגובה לאסונות וסקרים סביבתיים, שבהם כל עצם זעיר בתמונה עצומה יכול להכיל מידע חשוב.

ציטוט: Qiu, Y., Lin, Z. Lightweight model LMW-YOLO for small object detection in remote sensing images. Sci Rep 16, 11644 (2026). https://doi.org/10.1038/s41598-026-45055-6

מילות מפתח: חישה מרחוק, זיהוי עצמים קטנים, למידת עומק קלת-משקל, תמונות אוויריות, ארכיטקטורת YOLO