Clear Sky Science · ja
低消費電力エッジSoCでの物体検出:再現可能なベンチマークと展開ガイドライン
スマートカメラに小さなチップが重要な理由
私たちの周りにある多くの「スマート」機器—防犯カメラ、ドローン、工場のセンサー、ドアベルなど—はリアルタイムで人や物体を検出する必要がありますが、データセンター向けの電力を大量に消費するハードウェアではなく、非常に小型で低消費電力のチップに依存しています。企業はしばしば人気のあるYOLO物体検出モデルを選びますが、チップの仕様上の速度表示は現場での実際の挙動をほとんど示していません。本稿は、9種類の現代的なYOLOバリアントを3つの広く使われる低コストなRockchipプロセッサ上で実験的に厳密に評価し、エッジに知能を移すときに実際に速度、エネルギー消費、信頼性を支配する要因を明らかにします。

日常的な3つのチップを顕微鏡で見る
著者らは多くの組込みビジョンシステムの裏で静かに動作している3つの商用SoCに着目します:小型のRV1106、中堅のRK3568、より高性能なRK3588です。それぞれは汎用プロセッサコアに加え、専用のニューラルプロセッシングユニット(NPU)と外部メモリを組み合わせています。これらのプラットフォーム上で、チームは9つのYOLOモデル(3世代:YOLOv5、YOLOv8、YOLO11、それぞれ3サイズ:Nano、Small、Medium)を同一のベンチマークデータセットで訓練したものを展開します。モデルを共通のフォーマットに変換し、8ビット算術に量子化し、Rockchipのツールでコンパイルしてから、数百回の計測テストを実行し、フレームあたりの遅延、消費電力、エネルギーの安定した測定値を得ています。
速度は仕様書が示すほど単純ではない
最も明白な教訓の一つは、従来のモデルやチップの数値が実際の速度をうまく予測しないことです。最も遅いチップでは、最小モデルでさえフレーム当たり約70~100ミリ秒かかり、中程度のサイズのモデルはリアルタイム用途には明らかに遅すぎます。最速のチップはNanoや多くのSmallモデルをおおむね30fps付近で動かせますが、大きなモデルは依然として非常に高いフレームレート目標に達しません。驚くべきことに、遅延は演算量やパラメータ数よりもモデルの精度とより密接に相関します。新しい、より高精度なYOLO設計は精度に寄与する内部ブロックを追加しますが、これらはNPU上で実行しにくく、「賢い」設計はこの種のハードウェアでは「目に見えて遅い」ことが多いのです。
画像を大きくし、共有メモリが影響する場合
入力画像を大きくすると仕事量が滑らかに増えるだけではないことを研究は示しています。理論上は幅と高さを2倍にするとコストは4倍になるはずですが、帯域幅の低いチップではさらに急速に増加することがあります。画像が大きくなると、中間データがメモリ内に収まりきらず、オフチップメモリに何度も移し替える必要が出てきます。最小・中堅のSoCではこれが渋滞となり、中程度のモデルは予想以上に遅くなり、他のタスクによる背景的なメモリ使用が遅延を50~270%も膨らませることがあります。対照的に、はるかに高いメモリ帯域を持つRK3588は解像度の増加を優雅に処理し、追加のCPUやメモリ負荷にもほとんど動じません。これは生の計算能力ではなくメモリ速度が真のボトルネックであることを浮き彫りにします。

コア数や消費電力の多さは効率を保証しない
Rockchipの最速チップは3コアのNPUを備えますが、YOLOを複数コアで動かしても得られる利点は限定的です。ほとんどのモデルで、作業を2〜3コアに分割しても遅延は10%未満しか短縮されず、場合によっては性能が低下することさえあります。コア間の調整と同一メモリプールの共有に伴うオーバーヘッドが理論上の利得の多くを相殺してしまうためです。消費電力の測定は別の興味深い側面を示します:3つのSoCはいずれも動作中は数ワットしか消費しませんが、フレーム処理あたりのエネルギーは最大で3倍の差があります。上位のRK3588は瞬間的にはより多くの電力を使いますが、作業を非常に速く終えるため、中程度のモデルや高解像度ではしばしば最もエネルギー効率が良い選択になります。
実機向けの実用的な示唆
スマートカメラ、ロボット、IoT機器のことを考えている読者に向けたメッセージは明快です。最小のチップでは、実用的なのはごく小さなYOLOモデルを中程度の画像サイズで使う場合のみで、リアルタイム動画は依然として厳しいことがあります。中堅のチップは小型モデル、場合によってはフレームレートやバッテリ寿命を犠牲にできる場合に中程度のモデルも支えられます。高性能なRK3588では、より高精度な中型YOLOバリアントを実行しつつフレーム当たりのエネルギーを抑えることが現実的になります。全体を通して、設計者はハードウェアを十分に考慮してモデルを選び、メモリ帯域に注意を払い、ネットワークを大きくすることを追いかけるよりもメモリ節約の工夫を優先すべきだと論じられています。最終的に重要なのは、広告されるテラ演算数ではなく、システム全体が現実世界の雑多な条件で高速かつ安定して、かつエネルギーに配慮した物体検出を提供できるかどうかです。
引用: Kong, C., Li, F., Yan, X. et al. Object detection on low-compute edge SoCs: a reproducible benchmark and deployment guidelines. Sci Rep 16, 5875 (2026). https://doi.org/10.1038/s41598-026-36862-y
キーワード: エッジAI, 物体検出, 組込みビジョン, YOLOモデル, 低消費電力SoC