Clear Sky Science · ja
エッジ機器でのリアルタイム検出における大型YOLOv8とRT‑DETRのエネルギー効率に関するレビュー
エッジのスマートカメラ
配送ドローンから交通監視カメラまで、多くの機械が電力を大量に消費するデータセンターから離れた場所で、自前で人物や物体を認識する必要が増えています。本論文はその傾向の実務的な疑問を問います:今日の大型で高精度な物体検出モデルは、Raspberry Piのような小型コンピュータやロボットで用いられるコンパクトなAIボード上で、バッテリを著しく消耗させずに高速かつ効率的に動作できるのでしょうか?

物体検出の二大アプローチ
著者らはコンピュータビジョンで広く使われる二つの最新物体検出器に着目します。一つはYOLOv8と呼ばれる、速度と精度の良好なバランスで長く支持されてきた畳み込みニューラルネットワークの流れを洗練したものです。もう一つはRT‑DETRで、畳み込みにトランスフォーマーブロックを組み合わせており、言語モデルから取り入れられた長距離依存を捉える能力を備えています。本研究では両モデルの大型版を用い、サイズが概ね比較可能なそれらが人気のあるCOCO画像集合で日常的な物体をどれだけ検出できるかを評価します。
小型機器、多様なソフトウェア経路
これらのモデルを大きなデスクトップGPUで動かす代わりに、著者らはドローンや小型ロボットの頭脳に似た二つのエッジプラットフォーム、Raspberry Pi 5とNvidia Jetson Orin NXを用います。Raspberry PiではCPUのみの実行に加え、GoogleのEdge TPUやHailo‑8ベースのRaspberry Pi AI HAT+といった追加のニューラルチップを試験します。Jetsonボードでは内蔵GPUを活用します。各モデルはPyTorchのような研究向けフレームワークからTensorRT、NCNN、MNN、Paddle Lite、TensorFlow Liteといった高最適化の展開ツールまで複数のソフトウェアエンジンで実行され、ソフトウェア選択が速度、消費電力、精度にどのように影響するかを明らかにします。
速度・消費電力・精度を同時に計測
実運用を模すために、著者らは単にネットワーク本体の処理時間を測るだけではありません。フルHDのビデオストリームを入力し、フレームのデコード、モデル向けの前処理、検出実行、結果の後処理まで含めて計測します。「リアルタイム」は標準ビデオの25フレーム毎秒以上と定義します。モデルの生の検出精度は多くのランタイムで高く保たれる一方、総合的なフレームレートとエネルギー消費は大きく変動します。Raspberry Piでは大型モデルをCPUのみで動かすとフレームあたり数秒を要し、極めて低いエネルギー効率になります。専用のニューラルチップは状況を変えます:Hailo‑8経由ではYOLOv8が高いエネルギー効率と良好な精度を両立する一方、Edge TPUは処理が高速ですが入力解像度の低下や数値丸めの強い制約を課すため、実用に足る検出精度が大きく損なわれます。

GPU最適化で勝者が入れ替わる
より強力なGPUを備えたJetson Orin NXでは、モデル設計と展開ソフトウェアの間の綱引きを詳しく観察できます。ここでTensorRT(Nvidiaハードウェア向けにモデルをコンパイル・圧縮するツールチェーン)は推論時間を大幅に短縮し、両検出器のフレーム毎ワット性能を向上させます。研究での標準的な設定ではYOLOv8が速く見えますが、完全なTensorRT最適化と低精度演算を適用するとRT‑DETRが追いつき、場合によっては大型モデルの生スループットでYOLOv8を上回ります。ただし、各モデルの公表されている演算量で正規化すると、YOLOv8は単位あたりの名目作業に対して依然として少ない時間と少ないエネルギーで処理できる一方、RT‑DETRはツールチェーン間の変換に対してより敏感であることが示されます。
生の数値が全てを語らない理由
これらの結果を解きほぐすために、論文は性能の三要素を分離して考察します:紙上で見積もられる基本的な計算量、構成ブロックが実際にメモリを通じてデータを移動させるやり方、そしてランタイムソフトウェアが加えるオーバーヘッドです。RT‑DETRに見られるトランスフォーマーは、多くの画像位置を相互に結びつけるアテンション層に依存しており、大きな中間データ構造を生み出してメモリやスケジューリングに負担をかけることがあります。対照的にYOLOv8のような畳み込み重視の設計は、組み込みGPU上でのカーネル融合や局所データ再利用により容易に適合します。さらに、低精度演算に起因するとされる精度低下の一部は、実際には元のトレーニングフレームワークからハードウェア最適化エンジンへの変換過程で発生していることも示されます。
実際のデバイスにとっての意味
結論として、どちらの機器上でも大型モデルの構成はフルビデオパイプラインで厳密な25フレーム毎秒の目標を達成していません。エンジニア向けの本研究の結論は、「エッジ対応」な検出器を選ぶことはパラメータ数や理論上の演算量を見ただけでは単純に決められない、ということです。本当に成功するかどうかは、モデル構造が特定のチップとどう相互作用するか、ランタイムソフトウェアがその演算をどれだけうまくコンパイル・スケジュールできるか、そしてエクスポートや量子化でどれだけ精度が保たれるかに依存します。現時点では、小型で電力制約のあるプラットフォームで真のリアルタイム性能を達成するには、ハードウェアを意識したチューニングや、多くのケースでこれらのモデルの最も大型で高精度な版ではなく、小型版の採用が依然として必要です。
引用: Suchý, I., Turčaník, M. Review of large YOLOv8 and RT-DETR energy efficiency on edge devices for real-time detection. Sci Rep 16, 10908 (2026). https://doi.org/10.1038/s41598-026-46453-6
キーワード: エッジAI, 物体検出, エネルギー効率, 組み込みGPU, モデル量子化