Clear Sky Science · ru
Обзор энергоэффективности больших YOLOv8 и RT-DETR на устройствах периферии для детектирования в реальном времени
Интеллектуальные камеры на периферии
От дронов доставки до камер мониторинга дорожного движения всё больше устройств должны самостоятельно распознавать людей и объекты вдали от энергоёмких дата-центров. В этой работе поставлен практический вопрос, стоящий за этой тенденцией: могут ли современные большие высокоточные модели обнаружения объектов работать быстро и эффективно на крошечных компьютерах, таких как Raspberry Pi, или на компактных AI-платформах для роботов, не разряжая их батареи?

Два соперника для распознавания объектов
Авторы сосредотачиваются на двух современных детекторах объектов, ставших рабочими лошадками компьютерного зрения. Один, называемый YOLOv8, — это эволюция классических сверточных нейросетей, давно ценимых за баланс скорости и точности. Другой, RT-DETR, сочетает эти свёртки с трансформерными блоками — более новым типом сетей, заимствованным у языковых моделей, который хорошо улавливает дальние зависимости. В исследовании используются крупные версии обеих моделей, примерно сопоставимые по размеру, и оценивается их способность находить повседневные объекты в популярной коллекции изображений COCO.
Крошечные компьютеры, множество программных путей
Вместо запуска моделей на мощной настольной GPU команда обращается к двум платформам периферии, напоминающим «мозг» дронов и небольших роботов: Raspberry Pi 5 и Nvidia Jetson Orin NX. На Raspberry Pi они проверяют исполнение на чистом CPU и используют дополнительные нейронные ускорители, такие как Google Edge TPU и основанный на Hailo‑8 Raspberry Pi AI HAT+. На плате Jetson делают ставку на встроенную GPU. Каждая модель запускается через несколько программных движков — от исследовательских фреймворков вроде PyTorch до высоко оптимизированных инструментов развертывания, таких как TensorRT, NCNN, MNN, Paddle Lite и TensorFlow Lite — чтобы понять, как выбор ПО меняет скорость, энергопотребление и точность.
Измерение скорости, энергии и точности вместе
Чтобы смоделировать реальные сценарии, авторы измеряют не только время работы ядра сети. Они подают полный поток видео в высоком разрешении: декодирование кадров, подготовку их для модели, запуск детекции и оформление результатов. Они определяют «реальное время» как не менее 25 обработанных кадров в секунду, стандартную частоту видео. Хотя базовая детекционная точность моделей остаётся высокой во многих рантаймах, совокупная частота кадров и энергопотребление сильно варьируются. На Raspberry Pi запуск больших моделей только на CPU приводит к задержкам в несколько секунд на кадр и крайне низкой энергоэффективности. Специализированные нейроускорители меняют картину: путь с Hailo‑8 даёт YOLOv8 и высокую энергоэффективность, и сильную точность, тогда как Edge TPU работает быстро, но вынуждает снижать входное разрешение и применять агрессивное округление чисел, что значительно ухудшает качество обнаружения до непрактичных уровней.

Тюнинг GPU меняет победителя
Jetson Orin NX с более мощной GPU позволяет внимательнее взглянуть на противоборство между архитектурой модели и программным стеком развертывания. Здесь TensorRT — набор инструментов, который компилирует и сжимает модели для аппаратуры Nvidia — существенно сокращает времена инференса и повышает кадры в секунду на ватт для обоих детекторов. В исходной исследовательской конфигурации YOLOv8 кажется быстрее. После полной оптимизации TensorRT и применения низкой точности RT-DETR догоняет и даже обгоняет YOLOv8 по сырой пропускной способности для больших моделей. Тем не менее, если нормализовать результаты по заявленному объёму вычислений каждой модели, YOLOv8 по‑прежнему тратит меньше времени и энергии на единицу номинальной работы, тогда как RT-DETR оказывается более чувствителен к шагам конверсии между инструментальными цепочками.
Почему сырые числа — не вся история
Чтобы пояснить эти результаты, статья разделяет производительность на три составляющие: базовый объём вычислений, который на бумаге требует каждая модель; то, как её блоки фактически перемещают данные через память; и накладные расходы, добавляемые рантаймом. Трансформеры, как в RT-DETR, опираются на слои внимания, которые связывают многие области изображения между собой, порождая большие промежуточные структуры данных, нагружающие память и планирование даже при относительно скромных номинальных подсчётах операций. Дизайны, ориентированные на свёртки, как YOLOv8, напротив, лучше поддаются объединённым ядрам и локальному повторному использованию данных на встроенных GPU. Авторы также показывают, что часть потери точности, которую обычно приписывают арифметике низкой точности, на самом деле возникает раньше — при конверсии из исходного фреймворка обучения в аппаратно‑оптимизированный движок.
Что это значит для реальных устройств
В итоге ни одна из конфигураций с крупными моделями на обоих устройствах не достигает строгой цели в 25 кадров в секунду для полного видео пайплайна. Вывод для инженеров таков: выбор «готового к периферии» детектора нельзя свести к простому считыванию числа параметров или теоретических операций. Реальный успех зависит от того, как структура модели взаимодействует с конкретным чипом, насколько хорошо рантайм компилирует и планирует её операции и сколько точности сохраняется при экспорте и квантизации. Пока что достижение действительно реального времени на маленьких энергозависимых платформах по‑прежнему потребует аппаратно‑ориентированной доработки и, во многих случаях, использования уменьшенных версий этих моделей, а не самых больших и точных.
Цитирование: Suchý, I., Turčaník, M. Review of large YOLOv8 and RT-DETR energy efficiency on edge devices for real-time detection. Sci Rep 16, 10908 (2026). https://doi.org/10.1038/s41598-026-46453-6
Ключевые слова: edge AI, обнаружение объектов, энергоэффективность, встроенный GPU, квантизация модели