Clear Sky Science · tr

Güvenilirlik farkındalıklı regresyon ve uyarlanabilir şablon güncellemesi ile dönüştürücü destekli çift dallı SİYAM takipçi

· Dizine geri dön

Kalabalık Bir Sahnedeki Tek Bir Nesneyi Takip Etmeyi Bilgisayarlara Öğretmek

Otonom araçlardan ev güvenlik kameralarına ve insansız hava araçlarına kadar birçok modern cihaz, hareketli bir dünyada tek bir nesneyi izlemek zorunda. Bu görev, görsel nesne takibi olarak adlandırılıyor; insanlar için basit görünse de makineler için şaşırtıcı derecede zor: insanlar kameranın önünden geçebilir, aydınlatma değişir, nesne uzaklaşıp küçülebilir veya kısa süreliğine gizlenebilir. Bu makale, gerçek dünya koşullarında hedefe daha güvenilir şekilde kilitlenmek için derin öğrenme ve dönüştürücülerdeki (transformer) son gelişmeleri kullanan yeni bir takip sistemi olan TSDTrack’i tanıtıyor.

Figure 1
Figure 1.

Tek Bir Şeyi Takip Etmenin Neden Bu Kadar Zor Olduğu

Bir takipçi genellikle nesneyi bir videonun ilk karesinde net görür, ardından sahne değiştikçe onu bulmaya devam etmelidir. Geleneksel yöntemler ya el yapımı görüntü özelliklerine ya da ilk kareyi ("şablon") her yeni kareyle karşılaştıran bir sinir ağına dayanıyordu. Bu eski sistemlerin üç büyük zayıflığı vardı. Birincisi, genellikle orijinal şablonu sabit tutarlardı; nesne döndüğünde, kısmen kapandığında veya boyutu değiştiğinde takipçi zorlanıyordu. İkincisi, sıklıkla görüntüde tek bir ayrıntı düzeyine odaklanıyorlardı ve ince kenarlarla daha geniş bağlamın birleşimini kaçırarak nesneleri tanımada insanlara yardımcı olan ipuçlarını gözden kaçırıyordu. Üçüncüsü, ne zaman şüphe etmeleri gerektiğini bilmiyorlardı: tahmini nesnenin etrafında bir kutu üretiyorlar, fakat bu tahminin ne kadar güvenilir olduğuna dair net bir duygu sunmuyorlar; bu da arka plana kayma eğilimine yol açıyordu.

Genel Bağlamı İnce Ayrıntılarla Harmanlamak

TSDTrack, klasik bir "Siamese" takip düzenini dil ve görsel görevleri dönüştüren dikkat tabanlı modeller olan dönüştürücülerle birleştirerek bu sorunları ele alıyor. Sistem, hedefi tanımlayan küçük bir yama ile güncel arama alanını içeren daha büyük bir yamadan özellik çıkaran derin bir ağ kullanır. Tek bir özellik ölçeğine güvenmek yerine, kenarlar, şekiller ve nesne düzeyindeki kalıpları temsil eden ağın birden çok katmanından bilgi çeker. Dönüştürücü tabanlı bir birleştirme modülü daha sonra takipçinin görüntüde şeylerin nerede olduğunu ve daha geniş sahneyle nasıl ilişkili olduklarını anlamasını sağlayacak şekilde bu katmanları nasıl karıştıracağını öğrenir. Bu, görüntü gürültülü veya kısmen engellenmiş olsa bile takipçinin hedefi benzer nesnelerden ve karmaşıklıktan ayırt etmesine yardımcı olur.

Takipçinin Ne Kadar Emin Olduğunu Bilmek

TSDTrack’in özü, görevi iki ilgili soruya bölen çift dallı bir tahmin başlığıdır: "Nesne nerede?" ve "Bu yanıta ne kadar güvenmeliyiz?" Bir dal, hedefin ne kadar benzer göründüğünü değil, aynı zamanda tahmin edilen kutunun muhtemel nesne bölgeleriyle ne kadar örtüştüğünü de yansıtan bir güven skorunu tahmin eder. Diğer dal ise kutu koordinatlarını tek bir tahmin olarak ele almaz; bunun yerine birden çok olası konum üzerinde olasılık dağılımı olarak modelleyerek belirsizliği temsil etmeye izin verir. Görüntü net olduğunda dağılım keskinleşir ve kutu hassas olur; nesne bulanık veya kısmen gizlenmişse dağılım yayılır. Bu olasılıksal bakış, tek bir katı tahmin yapan eski takipçilere kıyasla daha akıcı ve daha kararlı kutu yerleşimine yol açar.

Figure 2
Figure 2.

Orijinali Unutmadan Belleği Güncellemek

Takipteki temel tehlikelerden biri "şablon kayması"dır: model kötü kareleri kullanarak nesne fikrini güncellemeye devam ederse zamanla arka planı öğrenebilir. TSDTrack bunu güven dalının bir bekçi olarak davranmasına izin vererek çözer. Sistem, iç şablonunu yalnızca güven skoru seçilen eşik değerinin üzerindeyse günceller ve hatta o zaman bile yeni bilgiyi doğrudan değiştirmek yerine orijinal görünümle yumuşak bir şekilde harmanlar. Bu seçici güncelleme, takipçinin bir kişinin dönmesi veya bir arabanın dönmesi gibi gerçek değişimlere uyum sağlamasını sağlar; anlık örtülmeler veya dikkat dağıtıcı unsurlar tarafından kandırılmasını engeller. Orijinal şablon ayrıca daha sonraki güncellemeler yanıltıcı çıkarsa kullanılmak üzere kararlı bir referans olarak saklanır.

Sonuçların Pratikte Anlamı

Yazarlar TSDTrack’i uzun videolar, hızlı hareket, dronlardan alınan hava çekimleri ve yoğun karmaşa içeren sahneler dahil olmak üzere yaygın kullanılan birkaç takip ölçütünde test etti. Bu testlerin tamamında yeni yöntem, doğruluk (kutu gerçek nesneye ne kadar yakın) ve sağlamlık (nesneyi tamamen kaybetme sıklığı) açısından birçok önde gelen takipçiyi tutarlı biçimde geride bıraktı ve yine de modern donanımda gerçek zamanlı kullanım için yeterince hızlı çalıştı. Uzman olmayan bir okuyucu için çıkarım şudur: TSDTrack, gerçek dünya kameralarında bulunan dağınık koşullarda seçilen hedefi daha güvenilir şekilde takip edebilir. Çok ölçekli dönüştürücü muhakemesi, kendi kendine güven hissi ve dikkatli şablon güncellemesi bir araya gelerek otonom sürüş, akıllı gözetim ve zeki robotlar gibi uygulamalar için daha güvenilir bir yapı taşı sunar.

Atıf: Sachin Sakthi, K.S., Jeong, J.H. & Choi, W.Y. Transformer-augmented dual-branch siamese tracker with confidence-aware regression and adaptive template updating. Sci Rep 16, 5170 (2026). https://doi.org/10.1038/s41598-026-35692-2

Anahtar kelimeler: görsel nesne takibi, dönüştürücü tabanlı takip, Siamese ağlar, bilgisayar görüsü, özerk sistemler