Clear Sky Science · he

מודל היברידי של ResNet50-וויז'ן טרנספורמר עם מנגנון תשומת לב לסיווג תמונות אוויריות

· חזרה לאינדקס

למה עיניים חכמות בשמיים חשובות

תמונות אוויריות מרחפנים ולוויינים מנחות כיום תגובות לאסונות, תכנון עירוני, חקלאות ואפילו בקרה על תנועה. אבל ללמד מכונות להבין את המראות המורכבים והצפופים הללו ממעל עדיין קשה. המחקר מציג שני מודלי בינה מלאכותית חדשים המשלבים דרכי "ראייה" שונות כדי לזהות עשר קטגוריות של עצמים בתמונות רחפנים — כגון מבנים, רכבים, עצים וכבישים — ברמת דיוק גבוהה יותר משיטות קודמות. הגישה שלהם עשויה להפוך את המעקב האוטומטי מהאוויר למהיר, אמין וקל יותר לפריסה בסביבות אמיתיות.

אתגרים של מבט מלמעלה

תמונות אוויריות שונות מצילומים יומיומיים שאנו עושים בטלפון. העצמים קטנים יותר, יכולים להופיע בזוויות מוזרות ולעתים קרובות צפופים זה אל זה. רכב שמוסתר חלקית על ידי עץ, שביל צר או ערמות פסולת אחרי מפולת עלולים להיות קשים גם לבני אדם לזהות במהירות. עם זאת, ממשלות, צוותי חירום וסוכנויות סביבתיות מסתמכות יותר ויותר על מבטים מרחפנים ולוויינים למעקב אחרי שיטפונות, שריפות, התפחות עירונית ונזקי תשתיות. עם אלפי לוויינים בחלל ושוק דימות אווירי במשבר צמיחה, נפח הנתונים גדל מהר מדי מכדי שאנשים יבדקו ידנית, מה שמגביר את הצורך בסיווג אוטומטי מדויק ויעיל יותר.

שילוב שתי דרכי למידת הראייה של מכונות

רוב מערכות זיהוי התמונות המצליחות היום מסתמכות על למידה עמוקה. משפחה אחת, רשתות נוירונים קונבולוציוניות, מצטיינת בזיהוי דפוסים מקומיים כמו קצוות, מרקמים וצורות קטנות. משפחה אחרת, חדשה יותר בשם ויז'ן טרנספורמרים, מטפלת בתמונה כסדרה של טלאים ומצטיינת בלכידת קשרים רחבי טווח — למשל איך כביש, קבוצת גגות ושדה פתוח סמוך מתחברים בסצנה. עבודה זו משלבת את שניהם: מודל קונבולוציוני מוכר בשם ResNet-50 וויז'ן טרנספורמר. כל אחד מעבד את אותה תמונה אווירית ומפיק סט נפרד של תכונות מספריות — סיכומים קומפקטיים של מה שהרשת למדה על הסצנה. שתי זרמי המידע המאוחדים מועברים אחר כך למודול "תשומת לב" הלומד אילו תכונות הן החשובות ביותר בקבלת החלטה בין עשר הקטגוריות המיועדות.

Figure 1
Figure 1.

שתי אסטרטגיות תשומת לב למיקוד במה שחשוב

החוקרים מתכננים ובודקים שתי גרסאות של המערכת ההיברידית. בגרסה הראשונה הם פשוט מאחדים את התכונות מ‑ResNet‑50 והטרנספורמר ומזינים אותן למודול תשומת לב מרובת ראשים. מנגנון זה ניתן לדמיין כריבוי פנסי צומת שכל אחד מביט בתכונות מזווית מעט שונה ואז משלב את מסקנותיו. בגרסה השנייה הם משתמשים בתשומת לב חוצת‑זרם: התכונות מהרשת הקונבולוציונית פועלות כשאילתה ששואלת את תכונות הטרנספורמר היכן להסתכל, מה שמאפשר לזרם אחד להנחות את השני. בשני המקרים, פלט התשומת לב עובר דרך שכבות סטנדרטיות שממנה מקבלות החלטה סופית וממיינות את טלאי התמונה לאחת מעשר הקטגוריות, כולל מבנים, רכבים, פסולת, שבילי הליכה, כבישים מתכתיים, שדות פתוחים, צללים, מכלים/טנקים, עצים וגגות.

בדיקות על תמונות רחפנים מהעולם האמיתי

כדי לשפוט את ביצועי המודלים, המחברים משתמשים במאגר נתונים ציבורי ממדינת סיקימ בהודו, שנרשם על ידי רחפן שעפה בגובה של 60–120 מטרים מעל הקרקע. הנתונים מכסים נהרות, יערות, גבעות ואזורים בנויים, חתוכים לטלאים קטנים כך שכל תמונה שייכת לאחת מעשר הקטגוריות. המאגר מאוזן, עם מספר שווה של תמונות אימון ומבחן לכל כיתה, מה שהופך אותו למגרש מבחן הוגן. החוקרים מאמנים את שני המודלים ההיברידיים בתנאים זהים ומשווים בין ביצועיהם באמצעות מדדים מקובלים: דיוק, דיוק חיובי, ריקל, מדד F1, מטריצות בלבול ועקומות ROC. הם גם משווים את תוצאותיהם מול מספר רשתות ידועות ושיטות חדשות מבוססות טרנספורמר שפורסמו לאחרונה.

Figure 2
Figure 2.

סיווג חד יותר ופוטנציאל עולמי

שני המודלים ההיברידיים מבצעים טוב יותר ממערכות קודמות על מאגר זה, עם דיוקים כוללים של 95.52% ו‑95.80%, כשגרסת התשומת לב מרובת הראשים מקדימה במעט. הביצועים נשארים חזקים ויציבים לכל עשר סוגי העצמים, וניתוחים מפורטים מראים שגם הכיתות החלשות יותר מזוהות בשיעורים גבוהים. זה מציע ששילוב של רשתות קונבולוציה, ויז'ן טרנספורמרים ומנגנוני תשומת לב הוא מתכון חזק להבנת סצנות אוויריות מורכבות. עבור הקורא הכללי, התוצאה העיקרית היא שמחשבים משתפרים משמעותית במענה לשאלות כגון "איפה הכבישים?" או "אילו טלאים מציגים פסולת או מבנים?" באוספי תמונות רחפנים עצומים. ככל שמודלים אלה יתחדדו ויורחבו למאגרים חדשים, הם עשויים לתמוך בתגובות חירום חכמות יותר, במעקב סביבתי ובשירותי עיר חכמה התלויים בפרשנות מהירה ואמינה של תמונות מהשמיים.

ציטוט: Aboghanem, A., Abd Elfattah, M., M. Amer, H. et al. A hybrid ResNet50-vision transformer model with an attention mechanism for aerial image classification. Sci Rep 16, 5940 (2026). https://doi.org/10.1038/s41598-026-36492-4

מילות מפתח: סיווג תמונות אוויריות, תמונות רחפנים, למידה עמוקה, ויז'ן טרנספורמר, חישה מרחוק