Clear Sky Science · tr

Küçük uç aygıtlarda gerçek zamanlı algılama için büyük YOLOv8 ve RT-DETR enerji verimliliğinin incelenmesi

· Dizine geri dön

Kentte akıllı kameralar

Teslimat drone’larından trafik izleme kameralarına kadar giderek daha fazla makine, enerji yutan veri merkezlerinden uzakta kendi başına insanları ve nesneleri tanımak zorunda. Bu makale, bu eğilimin ardındaki pratik bir soruyu gündeme getiriyor: bugünün büyük, yüksek doğruluklu nesne algılama modelleri, bir Raspberry Pi veya robotlarda kullanılan kompakt AI kartları gibi küçük bilgisayarlarda pilleri tüketmeden hızlı ve verimli çalıştırılabilir mi?

Figure 1
Figure 1.

Nesne tespiti için iki rakip beyin

Yazarlar, bilgisayarlı görüde işgücü haline gelmiş iki modern nesne algılayıcıya odaklanıyor. Birincisi YOLOv8 adıyla bilinen, hız ve doğruluğun dengesiyle uzun süredir tercih edilen klasik konvolüsyonel sinir ağlarının sadeleştirilmiş bir evrimi. Diğeri RT-DETR; bu model konvolüsyonları, dil modellerinden ödünç alınan ve uzak ilişkileri yakalamada güçlü olan dönüştürücü (transformer) bloklarıyla harmanlıyor. Çalışmada her iki modelin de büyük boyutlu sürümleri—yaklaşık olarak benzer büyüklükte—kullanılıyor ve popüler COCO görüntü koleksiyonunda günlük nesneleri ne kadar iyi tespit ettikleri test ediliyor.

Küçük bilgisayarlar, çok sayıda yazılım yolu

Modeleri büyük bir masaüstü GPU üzerinde çalıştırmak yerine ekip, drone’lar ve küçük robotların beyinlerini andıran iki uç platforma yöneliyor: bir Raspberry Pi 5 ve bir Nvidia Jetson Orin NX. Raspberry Pi üzerinde düz CPU yürütme ile Google’ın Edge TPU’su ve Hailo‑8 tabanlı Raspberry Pi AI HAT+ gibi ek yapay sinir çiplerini test ediyorlar. Jetson kartında ise yerleşik GPU’dan yararlanıyorlar. Her model, PyTorch gibi araştırma odaklı çerçevelerden TensorRT, NCNN, MNN, Paddle Lite ve TensorFlow Lite gibi yüksek düzeyde optimize konuşlandırma araçlarına kadar birden çok yazılım motoru üzerinden çalıştırılarak yazılım seçimlerinin hız, güç tüketimi ve doğruluk üzerindeki etkisi inceleniyor.

Hız, güç ve doğruluğu birlikte ölçmek

Gerçek dünya kullanımını taklit etmek için yazarlar yalnızca çekirdek ağı zamanlamıyor. Tam bir yüksek çözünürlüklü video akışı veriyorlar; karelerin çözülmesi, modele hazırlanması, tespitin çalıştırılması ve sonuçların düzenlenmesi dahil. “Gerçek zaman”ı standart video hızı olan en az 25 işlenmiş kare/saniye olarak tanımlıyorlar. Modellerin ham tespit kalitesi birçok çalışma zamanında yüksek kalırken, genel kare hızı ve enerji kullanımı vahşice değişiyor. Raspberry Pi üzerinde büyük modellerin yalnızca CPU’da çalıştırılması, kare başına birkaç saniyelik gecikmelere ve son derece düşük enerji verimliliğine yol açıyor. Özel sinir çipleri tabloyu değiştiriyor: Hailo‑8 yolu YOLOv8’e hem yüksek enerji verimliliği hem de güçlü doğruluk sağlarken, Edge TPU hızlı çalışıyor ancak girdi çözünürlüğünü düşürmeye ve agresif sayı yuvarlamaya zorlayarak tespit kalitesini pratik düzeyin çok altına çekiyor.

Figure 2
Figure 2.

GPU ayarı kazananı değiştiriyor

Daha güçlü GPU’ya sahip Jetson Orin NX, model tasarımı ile konuşlandırma yazılımı arasındaki çekişmeyi daha yakından görmeyi sağlıyor. Burada TensorRT—Nvidia donanımı için modelleri derleyen ve sıkıştıran bir araç zinciri—inferans sürelerini dramatik şekilde kısaltıyor ve her iki algılayıcı için watt başına kare/saniye oranını artırıyor. Varsayılan araştırma kurulumu altında YOLOv8 daha hızlı görünürken, tam TensorRT optimizasyonu ve düşük hassasiyetli aritmetik uygulandıktan sonra RT‑DETR yakalıyor ve büyük modellerde ham veride YOLOv8’i bile geçiyor. Yine de yazarlar sonuçları modellerin ilan edilen yaptığı matematiksel iş miktarıyla normalize ettiklerinde, YOLOv8 hâlâ nominal iş birimi başına daha az zaman ve enerji kullanıyor; RT‑DETR ise araç zincirleri arasındaki dönüştürme adımlarına karşı daha hassas olduğunu gösteriyor.

Ham sayılar neden tüm hikâyeyi anlatmaz

Bu bulguları açmak için makale performansın üç bileşenini ayırıyor: bir modelin kağıt üzerinde gerektirdiği temel hesaplama miktarı, yapı taşlarının veriyi bellekte gerçekte nasıl taşıdığı ve çalışma zamanı yazılımının eklediği yük. RT‑DETR’daki dönüştürücülerde bulunan dikkat (attention) katmanları, birçok görüntü konumunu birbirine bağlayarak büyük ara veri yapıları üretir; bu yapılar nominal işlem sayıları mütevazı görünse bile belleği ve zamanlamayı zorlayabilir. YOLOv8 gibi konvolüsyon ağırlıklı tasarımlar ise gömülü GPU’larda birleştirilmiş çekirdekler ve yerel veri yeniden kullanımına daha kolay uygundur. Yazarlar ayrıca düşük hassasiyetli aritmetiğe suç atılan kısmı doğruluk kaybının aslında daha erken, orijinal eğitim çerçevesinden donanım‑optimize motoruna dönüştürme sırasında ortaya çıktığını gösteriyorlar.

Gerçek dünya cihazları için anlamı

Sonuçta, hangi cihazda olursa olsun büyük model kurulumlarının hiçbiri tam video hattı için katı 25 kare/saniye hedefine ulaşamıyor. Çalışmanın mühendisler için çıkarsaması şudur: “uç‑hazır” bir algılayıcı seçmek, parametre sayılarına veya teorik işlem sayılarına bakmaktan daha karmaşıktır. Gerçek başarı, model yapısının belirli çiple nasıl etkileştiğine, çalışma zamanı yazılımının işlemleri ne kadar iyi derleyip zamanladığına ve ihracat ile kuantizasyon sırasında ne kadar doğruluğun korunduğuna bağlıdır. Şimdilik küçük, güç sınırlı platformlarda gerçek zamanlı performansa ulaşmak donanım‑bilinçli ayarlamalar ve pek çok durumda en büyük ve en doğru modeller yerine daha küçük sürümler gerektirmeye devam edecek.

Atıf: Suchý, I., Turčaník, M. Review of large YOLOv8 and RT-DETR energy efficiency on edge devices for real-time detection. Sci Rep 16, 10908 (2026). https://doi.org/10.1038/s41598-026-46453-6

Anahtar kelimeler: uç AI, nesne algılama, enerji verimliliği, gömülü GPU, model kuantizasyonu