Clear Sky Science · he
סקירה של יעילות אנרגטית של YOLOv8 גדול ו-RT-DETR על מכשירי edge לגילוי בזמן אמת
מצלמות חכמות בקצה
ממסוקי משלוחים ועד מצלמות מעקב תנועה, יותר ויותר מכונות צריכות לזהות אנשים וחפצים בעצמן, רחוק ממרכזי נתונים שצורכים הרבה חשמל. המאמר שואל שאלה פרקטית שעומדת מאחורי הנטייה הזו: האם המודלים הגדולים והמדויקים של היום לזיהוי עצמים יכולים לרוץ במהירות וביעילות במחשבים זעירים כמו Raspberry Pi או בלוחות AI קומפקטיים המשמשים ברובוטים, מבלי לייבש את הסוללות שלהם?

שני מוחות יריבים לזיהוי עצמים
המחברים מתמקדים בשני גלאי עצמים מודרניים שהפכו לעבודה יום‑יומית בראייה ממוחשבת. האחד, בשם YOLOv8, הוא אבולוציה מרודדת של רשתות קונבולוציה קלאסיות, האהובות לאורך זמן על השילוב שלהן בין מהירות לבין דיוק. השני, RT-DETR, מערבב את הקונבולוציות עם בלוקי טרנספורמר—סוג עדכני של רשת שנלקח ממודלי שפה ומצטיין בלכידת תבניות בטווח ארוך. המחקר משתמש בגרסאות הגדולות של שני המודלים, בגודל מקורב זה לזה, ובודק עד כמה הם מזהים עצמים יומיומיים במאגר התמונות הפופולרי COCO.
מחשבים זעירים, מסלולי תוכנה רבים
במקום להריץ את המודלים על GPU שולחני חזק, הצוות פונה לשתי פלטפורמות edge שנראות כמו המוחות של רחפנים ורובוטים קטנים: Raspberry Pi 5 ו-Nvidia Jetson Orin NX. על ה-Raspberry Pi הם בודקים ביצוע פשוט על ה-CPU ותוספי שבבים ניורליים כמו Edge TPU של גוגל ו-Raspberry Pi AI HAT+ המבוסס על Hailo-8. על לוח ה-Jetson הם נשענים על ה‑GPU המובנה. כל מודל מורץ דרך מספר מנועי תוכנה—ממסגרות מחקריות כמו PyTorch ועד כלי פריסה מכוונים היטב כמו TensorRT, NCNN, MNN, Paddle Lite ו-TensorFlow Lite—כדי לראות כיצד בחירות תוכנה משנות מהירות, צריכת חשמל ודיוק.
מדידת מהירות, צריכת חשמל ודיוק ביחד
כדי לדמות שימוש בעולם האמיתי, המחברים לא מודדים רק את זמן הרשת המרכזית. הם מזינים זרם וידאו מלא ברזולוציה גבוהה, כולל פענוח הפריימים, הכנתם עבור המודל, הרצת הזיהוי והצגת התוצאות. הם מגדירים "זמן-אמת" כמינימום של 25 פריימים מעובדים בשנייה, קצב הווידאו התקני. בעוד איכות הזיהוי הגולמית של המודלים נשמרת גבוהה ברבים מהריצות, תדירות הפריימים הכוללת ושימוש האנרגיה משתנים באופן קיצוני. על ה-Raspberry Pi, הרצת מודלים גדולים רק על ה-CPU גורמת לעיכובים של כמה שניות לכל פריים ויעילות אנרגטית ירודה ביותר. שבבים ניורליים ייעודיים משנים את המצב: נתיב ה-Hailo-8 מספק ל-YOLOv8 גם יעילות אנרגטית גבוהה וגם דיוק חזק, בעוד ה-Edge TPU רץ במהירות אך מאלץ רזולוציית קלט נמוכה ועיגול מספרי אגרסיבי, מה שמוריד את איכות הזיהוי הרבה מתחת לרמות מעשיות.

כוונון GPU משנה את המנצח
ה-Jetson Orin NX, עם ה-GPU החזק יותר שלו, מאפשר מבט קרוב על המאבק בין עיצוב המודל לתוכנת הפריסה. כאן, TensorRT—שרשרת כלים שמקומלת ומדחסת מודלים לחומרת Nvidia—מקצרת משמעותית את זמני האינפרנס ומגבירה פריימים לשנייה לכל וואט עבור שני הגלאים. תחת ההגדרה המחקרית הבסיסית נראה ש-YOLOv8 מהיר יותר. לאחר אופטימיזציה מלאה ב-TensorRT ויישום חשבונאות ברזולוציה נמוכה, RT-DETR מצמצם את הפער ואפילו עוקף את YOLOv8 בתפוקה גולמית עבור מודלים גדולים. עם זאת, כאשר המחברים מנרמלים את התוצאות לפי כמות החישוב המוצהרת שכל מודל מבצע, YOLOv8 עדיין צורך פחות זמן ופחות אנרגיה לכל יחידת עבודה נומינלית, בעוד RT-DETR רגיש יותר לשלבי המרה בין כלי תוכנה.
מדוע המספרים הגולמיים לא מספרים את כל הסיפור
כדי לפצח את הממצאים הללו, המאמר מפריד שלושה רכיבים של ביצועים: כמות החישוב הבסיסית שכל מודל נראה דורש על הנייר, הדרך שבה בלוקי הבנייה שלו זורמים בפועל בזיכרון, והעומס הנוסף שמוסיף תוכנת הרUNTIME. טרנספורמרים כמו אלה שב-RT-DETR מסתמכים על שכבות תשומת לב שמחברות מיקומים רבים בתמונה זה לזה, ויוצרות מבני נתונים ביניים גדולים שיכולים להתיש זיכרון ותזמון גם אם ספירות הפעולות הנומינליות נראות צנועות. עיצובים כבדי‑קונבולוציה כמו YOLOv8, לעומת זאת, מתאימים ביתר קלות לקרנלים מאוחדים ולשימוש מקומי חוזר על נתונים על GPUs משובצים. המחברים מראים גם שחלק מאובדן הדיוק שמיוחס לחשבונאות ברזולוציה נמוכה נובע למעשה מוקדם יותר, בשל המרת המודל ממסגרת האימון המקורית למנוע מותאם‑חומרה.
מה משמעות הדבר עבור מכשירי עולם אמיתי
בסופו של דבר, אף אחת מההגדרות עם המודלים הגדולים בשני המכשירים אינה מגיעה ליעד המחמיר של 25 פריימים לשנייה עבור צינור הווידאו המלא. מסקנת המחקר למהנדסים היא כי בחירת גלאי "מוכן לקצה" אינה פשוטה כמו קריאת מספרי פרמטרים או כמות פעולות תיאורטית. הצלחה אמיתית תלויה באופן שבו מבנה המודל מתקשר עם השבב הספציפי, כמה טוב תוכנת הרUNTIME מהממת ומזמנת את הפעולות שלו, וכמה דיוק שורד את הייצוא והכימות. לעת עתה, השגת ביצועי זמן‑אמת אמיתיים בפלטפורמות קטנות ומוגבלות בהספק תדרוש כוונון המודע לחומרה ובמקרים רבים גרסאות קטנות יותר של מודלים אלה במקום הגדולים והמדויקים ביותר.
ציטוט: Suchý, I., Turčaník, M. Review of large YOLOv8 and RT-DETR energy efficiency on edge devices for real-time detection. Sci Rep 16, 10908 (2026). https://doi.org/10.1038/s41598-026-46453-6
מילות מפתח: edge AI, זיהוי עצמים, יעילות אנרגטית, GPU משובץ, כימות מודלים