Clear Sky Science · tr

Giyilebilir spor görüntülerinde yüksek hızlı küçük hedef tespiti için dinamik seyrek dikkat ile YOLC

2026-02-01 · Dizine geri dön

Bir Oyuncunun Gözünden Sporu Görmek

Bir maçı ya da tenis servisini tribünden değil de bir sporcunun başına takılı kameradan izlediğinizi hayal edin. Top görüş alanında küçük bir bulanıklık halinde hızla geçiyor, ancak antrenörler ve analistler topun nereye gittiğini, ne kadar hızlı olduğunu ve oyuncuların nasıl tepki verdiğini bilmek ister. Bu makale, bu hızlı, küçük nesneleri gerçek zamanlı olarak küçük, düşük güçlü giyilebilir cihazlarda tespit edip takip edecek şekilde tasarlanmış YOLC adlı yeni bir bilgisayar görüsü sistemi sunuyor.

Küçük, Hızlı Hedefleri Yakalamayı Neden Zor?

Giyilebilir kameralar spor antrenmanlarında yaygınlaştı ve maçların ile çalışma drilllerinin birinci şahıs videolarını kaydediyor. Ancak bu bakış açısından; tüy topu, tenis topu veya bir sprinterin başlangıç ayağı gibi kritik nesneler genellikle sadece birkaç piksel kaplar ve kareden kareye hızla hareket eder. Mevcut tespit sistemleri ya düşük güçlü cihazlar için çok ağırdır ya da nesneler küçük, bulanık veya uzaktayken takibi kaybeder. Yazarlar gerçek spor görüntülerinde birçok hedefin 32x32 pikseldan daha küçük olduğunu ve kareler arasında o kadar hızlı hareket ettiğini gösteriyor; standart yöntemler bunları kaçırıyor veya kimliklerini tekrar tekrar yitirerek trajeleri koparıyor ve ciddi performans analizlerini baltalıyor.

Giyilebilir Kameralar İçin Hafif Bir Görü İşlem Boru Hattı

Araştırmacılar, NVIDIA Jetson Nano gibi kenar donanımı için uyarlanmış eksiksiz bir tespit ve takip boru hattı olan YOLC’u ("You Only Look Clusters"ın kısaltması) tanıtıyor. Çekirdeğinde, MobileNet olarak bilinen verimli bir sinir ağı ailesinden inşa edilmiş, bellek ve hesaplamayı azaltan ve yine de küçük nesneleri görebilecek kadar ayrıntıyı koruyan çoğunlukla "ucuz" işlemler kullanan sadeleştirilmiş bir özellik çıkarıcı yer alıyor. Video kareleri dengelenmiş bir çözünürlüğe yeniden boyutlandırılıyor ve üç seviyede özellik haritası üretiliyor: küçük hedefler için ince ayrıntıları vurgulayan bir katman, orta boy nesneler için bir katman ve büyük veya uzak nesneler için daha güçlü yüksek düzey semantik sağlayan bir katman. Bu çok ölçekli haritalar, sistemin geri kalanını besliyor ve her hesaplamadan mümkün olan en fazla bilgiyi sıkıştırmak için dikkatle tasarlanmış bir şekilde işliyor.

Ağın Sadece Önemli Yerlere Bakmasını Sağlamak

Merkezi bir yenilik, insanın sahnedeki en bilgilendirici kısımlara sadece bir göz atma eğilimini taklit eden "dinamik seyrek dikkat" mekanizmasıdır. Her pikseli eşit işlemeyeceğine, YOLC görüntüde yerel olarak ne kadar değişiklik olduğunu ölçer — örneğin kenarlar, köşeler veya hareket eden bir topun dış çizgisi gibi — ve dokunun en belirgin olduğu yerlerin bir haritasını oluşturur. Ardından bu yüksek tepki veren konumların yaklaşık en iyi yüzde 30’unu daha ileri işlemler için tutar ve duvarlar, tribünler veya gökyüzü gibi gürültülü arka plan bölgelerini fiilen kapatır. Özel bir eğitim numarası, bu sert kırpmaya rağmen modelin tamamen eğitilebilir kalmasını sağlar. Bu seçici odak, dikkat dağıtıcı unsurları görmezden gelerek sadece doğruluğu artırmakla kalmaz, aynı zamanda ağın yapması gereken iş miktarını azaltır; bu pil gücüyle çalışan giyilebilir cihazlarda hayati bir avantajdır.

Keskin Özelliklerden Kararlı İzlere

Anahtar bölgelere odaklandıktan sonra, YOLC çok ölçekli bilgiyi iki yönlü bir özellik piramidi kullanarak birleştirir; bu piramit kaba seviyeden inceye ve ince seviyeden kaba seviyeye sinyalleri geçirir. Bu bağlantıların gücü aynı dikkat haritası ile yönlendirildiği için önemli küçük nesneler her aşamada güçlendirilir. Son tespit adımında, yatay ve dikey yönler boyunca sinyalleri bağlayarak nesnelerin çerçevedeki yerini daha iyi anlamaya yardımcı olan ek bir "koordinat dikkat" birimi bulunur. Kare bazlı tespitleri zaman içinde düzgün izlere dönüştürmek için yöntem, ardışık kareler arasındaki piksel hareketini tahmin eden hafif bir optik akış modülü ve önce yüksek güvenilirlikte tespitleri mevcut izlerle eşleştiren, sonra beklenen harekete uyan daha düşük güvenilirlikteki kutuları dikkatli şekilde yeniden kullanan iki aşamalı bir eşleştirme şeması ekler. Bu parçalar birlikte, nesneler yollarını kesiştirdiğinde veya kısa süreliğine gizlendiğinde bile kimlik değişimlerini ve boşlukları azaltır.

Gerçek Dünyadaki Performans

Takım, YOLC’u başa takılı bir kamerayla gerçek antrenman ortamlarında yakalanmış badminton, basketbol, tenis, sprint ve masa tenisini içeren özel bir spor veri seti üzerinde test etti. Bu zorlu materyalde sistem sadece 1.78 milyon parametre ile saniyede 53.5 kare hızında çalışıyor; bu, birçok popüler nesne algılayıcısından çok daha az. Tespit skoru (mAP@0.5) %75.3 ve küçük nesne geri çağırma oranı %80’in üzerinde, bu da birçok tanınmış hafif modelin önüne geçiyor. İzleme kıyaslamalarında YOLC daha uzun, daha güvenilir trajeler koruyor ve kimlik değişimlerini büyük ölçüde azaltıyor. Ayrıca hareket bulanıklığı ve kamera sallantısına karşı sağlam olduğu gösterildi; rakip yöntemlerle karşılaştırıldığında yanlış alarm oranını yaklaşık yarıya indiriyor.

Bu Spor ve Ötesi İçin Ne Anlama Geliyor

Antrenörler, analistler ve ekipman üreticileri için mesaj net: hızlı spor hareketlerini doğru ve gerçek zamanlı olarak anlamak, hantal sunuculara veya kusursuz TV düzeyi görüntülere bağımlı olmak zorunda değil. Nerede ve ne zaman hesaplama harcayacağına dikkatle karar vererek, YOLC gürültülü, birinci şahıs giyilebilir videoları küçük, hızlı nesnelerin sporcularla nasıl hareket ettiğine ve etkileştiğine dair ayrıntılı kayıtlara dönüştürüyor. Bu, antrenmanda daha zengin geri bildirim, yüksek yoğunluklu sporlarda daha güvenli izleme ve daha geniş anlamda sınırlı donanım koşullarında net görmesi gereken herhangi bir küçük cihazda daha akıllı görme sistemleri sağlayabilir.

Atıf: Chen, H., Song, Y., Liu, W. et al. YOLC with dynamic sparse attention for high-speed small target detection in wearable sports images. Sci Rep 16, 6858 (2026). https://doi.org/10.1038/s41598-026-38079-5

Anahtar kelimeler: giyilebilir spor görüsü, küçük nesne tespiti, gerçek zamanlı izleme, uç AI, dikkat mekanizmaları