Clear Sky Science · ru

Обнаружение объектов наEdge SoC с низкими вычислительными ресурсами: воспроизводимый бенчмарк и рекомендации по развертыванию

· Назад к списку

Почему маленькие чипы важны для «умных» камер

Многие «умные» устройства вокруг нас — камеры наблюдения, дроны, заводские датчики и видеозвонки — должны в реальном времени распознавать людей и объекты, но полагаются на очень маленькие энергоэффективные чипы, а не на ресурсоёмкое оборудование дата-центров. Компании часто выбирают популярные модели YOLO для детекции, однако заявленная скорость таких чипов мало говорит о том, как они работают в реальных условиях. В этой статье проведён строгий экспериментальный анализ того, как девять современных вариантов YOLO ведут себя на трёх широко используемых недорогих процессорах Rockchip, показывая, что действительно определяет скорость, энергопотребление и надёжность, когда интеллект перемещается на периферию.

Figure 1
Figure 1.

Три повседневных чипа под микроскопом

Авторы сосредотачиваются на трёх коммерческих системах-на-чипе (SoC), которые незаметно питают многие системы встроенного зрения: маленьком RV1106, среднем RK3568 и более мощном RK3588. Каждый из них сочетает обычные процессорные ядра с выделенным нейронным процессором (NPU) и внешней памятью. На этих платформах команда разворачивает девять моделей YOLO — три поколения (YOLOv5, YOLOv8, YOLO11) в трёх размерах (Nano, Small, Medium) — все обученные на одном и том же бенчмарк-наборе данных. Модели аккуратно конвертируют в общий формат, квантуют до 8-битной арифметики, компилируют с помощью инструментов Rockchip и затем проводят сотни замеренных прогонов, чтобы получить стабильные измерения задержки, потребляемой мощности и энергии на обработанный кадр.

Скорость — не то, что подсказывает спецификация

Один из самых очевидных выводов заключается в том, что традиционные показатели для моделей и чипов плохо предсказывают реальную скорость. На самом медленном чипе даже самые маленькие модели требуют около 70–100 миллисекунд на кадр, а модели среднего размера слишком медленны для использования в реальном времени. Самый быстрый чип может запускать Nano и многие Small модели близко к отметке 30 кадров в секунду, но большие модели всё ещё не достигают очень высоких целевых частот. Удивительно, но задержка больше коррелирует с точностью модели, чем с количеством операций или параметров. Новые, более точные конструкции YOLO добавляют внутренние блоки, которые полезны для точности, но неудобны для исполнения на этих NPU, поэтому «умнее» часто означает «заметно медленнее» на таком железе.

Когда большие изображения и общая память дают откат

Исследование показывает, что увеличение входного разрешения изображений не просто равномерно увеличивает объём работы. Теоретически удвоение ширины и высоты должно увеличивать стоимость в четыре раза, но на чипах с низкой пропускной способностью это может расти ещё быстрее. По мере увеличения изображений промежуточные данные перестают помещаться комфортно и вынужденно переносятся в внешнюю память повторно. На самых маленьких и средних SoC это превращается в пробку: модели среднего размера замедляются гораздо сильнее, чем ожидалось, а фоновые операции с памятью от других задач могут увеличить задержки на 50–270%. В отличие от них, RK3588 с гораздо большей пропускной способностью памяти выдерживает увеличение разрешения плавно и почти не реагирует на дополнительную нагрузку CPU или памяти, что подчеркивает: пропускная способность памяти — а не сырые вычисления — часто является настоящим узким местом.

Figure 2
Figure 2.

Больше ядер и больше мощности не гарантируют эффективности

Самый быстрый чип Rockchip включает трёхъядерный NPU, но запуск YOLO на нескольких ядрах даёт лишь скромный выигрыш. Для большинства моделей разделение работы между двумя или тремя ядрами уменьшает задержку менее чем на 10%, а иногда производительность даже ухудшается. Накладные расходы на координацию ядер и совместное использование пула памяти съедают большую часть теоретического выигрыша. Измерения мощности добавляют ещё одну деталь: все три SoC потребляют всего несколько ватт во время работы, но их энергия на обработанный кадр может различаться в три раза. Более дорогой RK3588 потребляет больше мощности в каждый момент времени, но завершает работу настолько быстро, что часто оказывается наиболее энергоэффективным выбором, особенно для моделей среднего размера и более высоких разрешений.

Практические выводы для устройств в реальном мире

Для тех, кто разрабатывает «умные» камеры, роботов или IoT-устройства, посыл ясен. На самых маленьких чипах практичны только крошечные модели YOLO при умеренных размерах изображения, и даже тогда обработка видео в реальном времени — это роскошь. Средний класс чипов может уверенно поддерживать маленькие модели и иногда модели среднего размера, если можно пожертвовать частотой кадров или временем автономной работы. Высокопроизводительный RK3588 делает реалистичным запуск более точных моделей среднего размера, при этом удерживая энергию на кадр под контролем. Во всех случаях статья настаивает, что проектировщикам следует выбирать модели, учитывая конкретное железо, внимательно следить за пропускной способностью памяти и отдавать предпочтение приёмам экономии памяти вместо гонки за всё большими сетями. В конечном счёте важно не заявленное число тераопераций в секунду, а то, сможет ли вся система обеспечить быструю, стабильную и энергоэкономичную детекцию объектов в хаотичных условиях реального мира.

Цитирование: Kong, C., Li, F., Yan, X. et al. Object detection on low-compute edge SoCs: a reproducible benchmark and deployment guidelines. Sci Rep 16, 5875 (2026). https://doi.org/10.1038/s41598-026-36862-y

Ключевые слова: edge AI, обнаружение объектов, встроенное зрение, модели YOLO, маломощный SoC