Clear Sky Science · tr

Gerçek zamanlı şiddet tespiti ve uyarı üretimi için gömülü bir derin öğrenme çerçevesi

· Dizine geri dön

Günlük güvenlik için daha akıllı kameralar neden önemli

Sokaklarda, okullarda ve toplu taşımada yaşanan kavga ve saldırılar genellikle insan operatörlerin her gözetim ekranını tarayıp yardım çağırmasından çok önce, saniyeler içinde gelişir. Bu çalışma, küçük ve düşük maliyetli bilgisayarların—Raspberry Pi gibi mütevazı cihazların—gerçek zamanlı olarak videoyu izlemesini ve muhtemel şiddet davranışlarını otomatik olarak işaretlemesini sağlayan bir yöntem sunuyor. Güçlü video analiz tekniklerini verimli, cihaz üzerinde çalışan bir sisteme sığdırarak, mevcut kameraların uzak veri merkezlerine veya sürekli insan dikkatine ihtiyaç duymadan daha hızlı, daha güvenilir bekçilere nasıl dönüştürülebileceğini gösteriyor.

Figure 1
Figure 1.

Ham videoyu erken uyarı sinyallerine dönüştürmek

Sistem, spor arenaları, kaldırımlar, kampüs yolları ve iç koridorlar gibi yerlerden gelen sıradan gözetim görüntüleriyle başlar. Tüm bu videoları merkezi bir sunucuya aktarmak yerine, her kamera karelerini yakındaki bir gömülü karta doğrudan gönderir. Orada gelen kareler standart hale getirilir—boyutlandırılır, temizlenir ve eğitim sırasında yatay/dikey çevirme, döndürme ve parlaklık değişiklikleri gibi hafif dönüşümlere uğratılır—böylece model farklı aydınlatma, görüş açıları ve kalabalık yoğunluklarıyla başa çıkmayı öğrenir. Yazarlar ayrıca zengin bir eğitim malzemesi karışımı oluşturur: beş bilinen açık veri seti artı yumruk atma, tekme, silahla ilgili saldırılar, kalabalık şiddeti, kaçma ve normal etkileşim içeren yeni altı kategorili bir derleme.

Kutunun içindeki kompakt beynin çalışma şekli

Sistemin kalbinde streamline edilmiş iki aşamalı bir öğrenme motoru vardır. İlk olarak, hafif bir görüntü modülü her karede belirleyici görsel ipuçlarını—vücut hatları, kol ve bacak pozisyonları ile hareket kenarlarını—mobil telefon görüntü modellerinden ödünç alınmış maliyet tasarruflu konvolüsyon işlemleriyle tarar. Ardından ikinci bir modül kısa bir kare dizisine bakarak bu ipuçlarının zaman içinde nasıl değiştiğini anlar; mesela dostça bir dokunuş ile bir yumruğun farkını yakalar. Bu, daha ağır video ağlarının yükünü getirmeyen, yakın zamandaki hareketleri hatırlayan verimli bir tekrarlı yapı ile yapılır. Basit bir son katman bu uzamsal-zamansal anlayışı altı etkinlik etiketinden birine çevirir ve sıradan hareketi olası saldırganlıktan ayırır.

Küçük, düşük güçlü bir karta derin öğrenmeyi sığdırmak

Zeki bir model tasarlamak hikâyenin yalnızca yarısıdır; avuç içine sığan bir bilgisayarda hızlı çalıştırmak asıl zorluktur. Yazarlar tüm sistemi bir mühendislik boru hattı gibi ele alır: önce güçlü bir grafik iş istasyonunda eğitilmiş bir sürümle başlarlar, sonra bunu taşınabilir bir formata dönüştürüp agresif şekilde küçültürler. Sayısal duyarlılık düşürülerek ağırlıkların orijinal belleğinin dörtte birini kaplaması sağlanır ve gereksiz ağ parçaları budanır. Cihaz dışında özel optimizasyon araçları kullanarak, Raspberry Pi üzerinde optimize edilmiş bir çalıştırma zamanıyla verimli şekilde yürütülebilen ayarlı bir model üretirler. Sonuç, kare başına yaklaşık 38 milisaniye gecikme ile saniyede yaklaşık 26 video karesi işleyen ve yalnızca birkaç watt enerji çeken—saha için sürekli çalışmaya yetecek kadar hızlı ve tasarruflu—bir sistemdir.

Figure 2
Figure 2.

Testler, güven ve makine yargısının sınırları

Kompakt izleyicilerinin hem doğru hem güvenilir olup olmadığını görmek için araştırmacılar onu bir dizi teste tabi tutar. Buz hokeyi salonlarından şehir sokaklarına kadar olan kıyaslama koleksiyonlarında ve kendi altı sınıflı veri setlerinde sistem, olayları yüz olaydaki yaklaşık 97′sinde doğru etiketlemiş ve şiddet eylemlerini yakalamayla yanlış alarmlardan kaçınma arasında güçlü bir denge göstermiştir. Tam 3-B konvolüsyonel ağlar ve dönüştürücü (transformer) tabanlı tasarımlar gibi daha ayrıntılı video modelleriyle yapılan karşılaştırmalar, bu daha yalın yaklaşımın çok daha az hesaplama kullanırken doğruluğu eşleyebileceğini veya geçebileceğini gösterdi. Ekip ayrıca modelin her kare içinde nereye “baktığını” görselleştirdi; modelin dikkatinin alakasız arka plan ayrıntıları yerine hareketli uzuvlara ve insanlar arasındaki yakın temasa doğal olarak odaklandığını buldular; bu da kararlarına güvenin artmasına yardımcı oluyor.

Daha güvenli, daha akıllı alanlar için ne anlama geliyor

Çalışmanın ana mesajı yeni bir sinir ağı türü icat ettiği değil; kanıtlanmış teknikleri pratik, gerçek zamanlı bir araca nasıl paketleyeceğini gösterdiğidir. Model tasarımı, veri hazırlığı ve dağıtımdaki sıkıştırma arasında dikkatli bir denge kurarak yazarlar, canlı videoyu izleyebilen, muhtemel şiddeti tanıyabilen ve düşük gecikme ile düşük enerji kullanımıyla uyarı verebilen gömülü bir sistem sunuyor. Ayrıca açık zorlukları kabul ediyorlar: sistem hâlâ kötü aydınlatma, kalabalık sahneler veya hızlı spor benzeri hareketler tarafından yanıltılabilir ve böylesi herhangi bir teknoloji gizlilik, önyargı ve insan gözetimine dikkat edilerek konuşlandırılmalıdır. Yine de çalışma, birçok sıradan kameranın küçük, sessiz bilgisayarlarla eşleştirilerek tehlikeyi daha erken fark etmeye yardımcı olabileceği ve daha hızlı, daha iyi bilgilendirilmiş müdahaleleri destekleyebileceği bir geleceğe işaret ediyor.

Atıf: Salman, M., Abbas, N., ur Rahman, S.I. et al. An embedded deep learning framework for real-time violence detection and alert generation. Sci Rep 16, 10805 (2026). https://doi.org/10.1038/s41598-026-44939-x

Anahtar kelimeler: şiddet tespiti, gömülü görüntüleme, uç AI, video gözetimi, derin öğrenme