Clear Sky Science · he

זיהוי עצמים בזמן אמת לכלי טיס בלתי מאוישים מבוסס vision transformer ומחשוב קצה

· חזרה לאינדקס

עיניים חכמות יותר בשמיים

כלי טיס בלתי מאוישים—רחפנים—מתחילים להפוך לכלי יום‑יומי למשימות כמו בדיקת גשרים, ניטור תנועה וחיפוש נעדרים. אבל כדי שרחפן באמת יסייע במשימות שבהן כל שנייה חשובה, הוא צריך יותר מלהקליט וידאו; עליו לזהות עצמים זעירים בזמן אמת תוך כדי טיסה עם סוללה מוגבלת ומחשב קטן על‑גוף. העבודה הזאת מציגה דרך חדשה לתת לרחפנים “עיניים” חדות ומהירות יותר על ידי שילוב טכניקת בינה מלאכותית מתקדמת בשם vision transformer עם שימוש חכם במחשבי קצה קרובים, כך שניתן יהיה לגלות במהירות ובאמינות עצמים קטנים כמו הולכי רגל, אופניים ומכוניות מהאוויר.

Figure 1
Figure 1.

למה רחפנים מתקשים לראות פרטים קטנים

מגובה רב על הקרקע, אנשים וכלי רכב יכולים לצטמצם לכמה עשרות פיקסלים בלבד במסגרת וידאו. מערכות רשתות עצביות מסורתיות המותאמות לרחפנים נבנו כדי לפעול במהירות על שבבים בעלי צריכת חשמל נמוכה, אך לעתים קרובות הן מחמיצות עצמים זעירים אלו או נכשלים כאשר התאורה או זווית הצפייה משתנים. מודלי vision transformer החדשים, שנשאבו מעולם עיבוד השפה, טובים הרבה יותר בהבנת הסצנה כולה ובחילוץ פרטים קטנים מרקעים עמוסים. המחיר הוא שהם בדרך כלל דורשים כוח חישוב עצום, הרבה מעבר למה שרכיב מעופף יכול לשאת. המחברים שאפו לצמצם את הפער הזה: לשמור על הראייה החדה של ה‑transformer, אך לצמצם אותה כדי שתפעל בזמן אמת על רחפן, ולהעביר עבודה נוספת לשרת קצה קרוב רק כשהתנאים מאפשרים זאת.

מוח מפוצל: הרחפן והקצה עובדים ביחד

המסגרת המוצעת מחלקת את העבודה בין הרחפן ומחשב קצה קרקעי. מצלמת הרחפן משדרת וידאו ברזולוציה גבוהה למודול קדם‑עיבוד על‑גוף שמייצב תמונה רועדת, מתאים בהירות ושינה דינמית של גודל התמונה בהתאם לכמות כוח העיבוד הזמינה. vision transformer קל משקל חוצב תכונות עשירות מכל פריים ומעביר לראש גילוי שמנבא היכן ממוקמים עצמים ומה הם. מתזמן עוקב אחר עיכוב רשת אלחוטית, רמת הסוללה ועומס עיבוד. כאשר הקישור לקרקע מהיר ויציב, ניתן להעביר משימות כבדות—כגון עיבוד אצוות פריימים או הרצת מודלים משפרי דיוק—לשרת הקצה. כשהקישור מתדרדר, המערכת עוברת אוטומטית לעיבוד עצמאי מלא על‑גוף כדי שהרחפן אף פעם לא י "יעוף בעיניים עצומות."

לאלף את המודל בלי לאבד את הראייה שלו

כדי להפוך את ה‑transformer לקטן ומהיר מספיק, המחברים מעצבים מחדש את מרכיביו הפנימיים. במקום לאפשר לכל חלק בתמונה להשוות את עצמו לכל שאר החלקים—תהליך שגדל באופן אקספוננציאלי עם הרזולוציה—הם מגבילים את תשומת הלב לחלונות מקומיים החולפים על פני התמונה, מה שמוריד את עלות החישוב לרמות ניתנות לניהול. בנוסף, סכימת חיתוך דינמית מעריכה באופן מתמיד אילו אזורים בתמונה מכילים מידע שימושי ואילו הם בעיקר רקע ריק. טוקנים הנחשבים לא‑מידעיים נזרקים מוקדם, חוסכים זמן וזיכרון, בעוד שסצנות מסובכות ועמוסות שומרות על יותר פרטים. המודל גם בונה פירמידת תכונות מרובת סולמות כדי שגם הולכי רגל זעירים וגם כלי רכב גדולים יימצאו באותו פריים. בשילוב עם כימות קפדני (שימוש בפחות ביטים לכל מספר), חיתוך ערוצים ואופטימיזציות תוכנה ברמה נמוכה, שינויים אלה מקצרים את החישובים הנדרשים בכ‑כ‑שניים בעוד שומרים על מעל 94% מהדיוק המקורי.

Figure 2
Figure 2.

הצבת המערכת למבחן

הצוות מעריך את העיצוב שלהם על מערך נתונים אווירי גדול שנבנה ממדדי רחפנים ציבוריים ואלפי תמונות חדשות שנאספו מעל ערים, פרברים ואזורים כפריים בעונות ותנאי תאורה שונים. על מחשב משובץ פופולרי המשמש ברחפנים, NVIDIA Jetson Xavier NX, המערכת שלהם רצה בכ‑39 פריימים לשנייה—מהירות מספקת לתפעול בזמן אמת—בעוד שהיא משיגה דיוק גבוה יותר מאשר גלאים קלילים נפוצים כמו וריאנטים של YOLO. במיוחד, היא טובה משמעותית בזיהוי עצמים קטנים, עם עלייה של בערך שבע נקודות אחוז בדיוק הממוצע לעומת רשתות הקונבולוציה המסורתיות. ניסויים שדה שנמשכו שבוע על פלטפורמת רחפן מסחרית מראים שהמערכת שומרת על ביצועים למרות רעידות מצלמה, שינויי תאורה ותנודתיות בקישור האלחוטי, ושהיא יכולה לעבור בצורה חלקה בין מצבי סיוע מהקצה לעיבוד מלא על‑גוף במהלך טיסות אמיתיות.

מה זה אומר למשימות רחפניות בעולם האמיתי

במילים פשוטות, עבודה זו מראה שאפשר לתת לרחפנים ראייה חדה ואמינה יותר בלי לצרף אליהן מחשב ברמת מרכז נתונים. על‑ידי עיצוב מחדש של ה‑vision transformer להיות רזה, התמקדות סלקטיבית בחלקים המועילים ביותר של כל תמונה ושילוב הרחפן עם שרת קצה קרוב כשניתן, המחברים מספקים גלאי שרואה יותר, מחמיץ פחות ועדיין רץ בזמן אמת בתוך מגבלות חזקת חשמל וזיכרון קפדניות. זה הופך משימות כמו חיפוש והצלה, הערכת נזקים ותצפית על תשתיות לבטוחות ויעילות יותר, מכיוון שרחפנים יכולים לזהות טוב יותר פרטים קטנים ובעלי חשיבות—כמו אדם תקוע או כבל פגום—בדיוק ברגע שכל שנייה חשובה.

ציטוט: Zhu, W., Chen, K. Real-time object detection for unmanned aerial vehicles based on vision transformer and edge computing. Sci Rep 16, 6814 (2026). https://doi.org/10.1038/s41598-026-37938-5

מילות מפתח: רחפנים, זיהוי עצמים, מחשוב קצה, vision transformer, تصوير בזמן אמת