Clear Sky Science · tr
Kalabalık sayımı için Fourier dönüşümüne dayalı tek alan genelleştirmesi
Neden Daha Akıllı Kalabalık Sayımları Önemli
Müzik festivallerinden metro istasyonlarına, yağmurlu bir gecedeki şehir sokaklarına kadar, bir mekanda yaklaşık kaç kişinin bulunduğunu bilmek güvenlik planlaması, trafik kontrolü ve acil müdahale için hayati öneme sahiptir. Günümüzün bilgisayar sistemleri kamera görüntülerinden kalabalık büyüklüklerini tahmin edebiliyor, ancak koşullar değiştiğinde—örneğin kamera taşındığında, aydınlatma gündüzden geceye kaydığında veya sis ve bulanıklık ayrıntıları gizlediğinde—çoğu zaman başarısız olurlar. Bu makale, otomatik kalabalık sayımını karmaşık ve sürekli değişen gerçek dünyada çok daha güvenilir hale getirmeyi amaçlayan yeni bir yaklaşım olan SinCount’u sunuyor.

Değişen Sahnelerin Yol Açtığı Sorunlar
Çoğu modern kalabalık sayıcı derin öğrenmeyi kullanarak bir görüntüyü “yoğunluk haritasına” çevirir; bu, insanların nerede olduğunu ve ne kadar sıkışık olduklarını gösteren bir tür ısı haritasıdır. Bu haritanın toplamı toplam sayıyı verir. Bu sistemler, işlem sırasında gördükleri görüntüler eğitildikleri görüntülere benzediğinde çok doğru olabilir. Ancak pratikte gerçek sahneler çok farklılık gösterir: kameralar farklı açılara bakar, kalabalıklar seyrek kaldırımlardan dolu stadyumlara kadar değişir ve hava ile aydınlatma parlak güneşten sisli gecelere kadar kayabilir. Her yeni konum için yeni etiketli görüntüler toplamak yavaş ve pahalıdır; özellikle her kişi elle işaretlenmelidir. Sonuç olarak, bir ortamda eğitilmiş modeller başka bir ortama taşındığında sıklıkla başarısız olur; bu probleme “alan kayması” denir.
Frekanslar Yoluyla Kalabalıkların Görülmesi
Yazarlar bu sorunu görüntüleri yalnızca pikseller olarak değil, Fourier dönüşümünde kullanılan anlamda frekans bileşimleri olarak görerek ele alıyor. Yüksek frekanslı bileşenler keskin kenarları ve ince ayrıntıları, örneğin baş ve omuz hatlarını vurgular. Düşük frekanslı bileşenler ise sahnenin geniş düzenini, örneğin kalabalığın genel olarak nerede bulunduğunu veya farklı bölgelerde ne kadar yoğun olduğunu yakalar. Ekip, bu iki bilgi türünün doğal olarak iki farklı görev için uygun olduğunu gözlemliyor: ayrıntılı frekans ipuçları her küçük yama için kaç kişinin bulunduğunu tahmin etmekte en iyi sonucu verirken, daha düzgün düşük frekanslı ipuçları hangi alanların gerçekten kalabalık içerdiğini arka plandan ayırmada daha iyidir.
Yükü Paylaşan İki Çalışan Bileşen
Bu fikir üzerine kurulan SinCount çift dallı bir tasarım kullanır. Paylaşılan bir özellik çıkarıcı önce bir görüntüyü işler, ardından yoğunluk dalına ve sınıflandırma dalına ayrılır. Frekans-Spesifik Özellik Çıkarımı adlı özel bir modül sahnenin yüksek ve düşük frekanslı sürümlerini ayırır ve her birinin kompakt iç temsillerini öğrenir. Yoğunluk dalı, insanlarla ilişkili olma olasılığı yüksek konumları vurgulayarak nihai yoğunluk haritasını keskinleştiren mekansal dikkat bloğu aracılığıyla yüksek frekanslı rehberlik alır. Bu sırada sınıflandırma dalı, kalabalık bölgeleriyle ilişkili özellikleri güçlendirip alakasız arka planı bastıran kanal tabanlı dikkat yoluyla düşük frekanslı rehberlik alır. Bu iki dal birlikte, boş veya yanıltıcı bölgeleri görmezden gelerek kalabalık alanlarına odaklanan rafine bir yoğunluk haritası üretir.

Gürültülü Bir Dünyada Odaklanmayı Korumak
Gerçek görüntüler aynı zamanda dikkat dağıtıcı unsurlar içerir: parlama, hareket bulanıklığı veya aydınlatma değişimleri modelin yanıltıcı desenlere yönelmesine neden olabilir. Buna karşı koruma sağlamak için SinCount iki ek fikir daha ekler. Bir örnek normalizasyon maskesi, bir görüntünün orijinaline ve artırılmış bir versiyonuna (örneğin renk-değiştirilmiş veya bulanıklaştırılmış bir versiyon) karşılık özelliklerin nasıl tepki verdiğini karşılaştırır ve fazla değişen konumları güvenilmez olarak ele alıp etkilerini azaltır. Bir dikkat tutarlılığı kaybı ise sistemin, görünüm hafifçe değişse bile her iki versiyonda da benzer bölgelere bakmasını teşvik eder, böylece odağı kaymaz. Ek eğitim sinyalleri yüksek frekans yolunu gerçek kalabalık yoğunluklarıyla daha iyi eşleştirmeye ve düşük frekans yolunu kalabalık-vs-arka plan bölgeleriyle daha iyi eşleştirmeye zorlar.
Sonuçların Pratikte Anlattıkları
Araştırmacılar SinCount’u dolu stadyumlar, şehir sokakları ve bulanık, düşük ışıklı gece sahneleri gibi birkaç zorlu halka açık veri kümesinde test ediyor. Hedef sahnelerden örnekler eğitim sırasında hiç görülmemiş olmasına rağmen, SinCount mevcut tek alan genelleştirme yöntemleriyle eşleşiyor veya onları geride bırakıyor ve sıklıkla daha önceki tasarımların kullandığı ağır bellek modüllerinden kaçındığı için daha hızlı işlem sağlıyor. Basitçe söylemek gerekirse; sistem, bir ortamdan kalabalıkları saymayı öğreniyor ve ardından hiç görmediği pek çok başka ortama yerleştirildiğinde sağlam bir iş çıkarıyor. Şehir yöneticileri, etkinlik organizatörleri ve güvenlik yetkilileri için bu, yeni kameralara, yeni konumlara ve değişen hava koşullarına karşı daha dayanıklı kalabalık izleme araçlarına işaret ediyor—en çok ihtiyaç duyulduğunda güvenilir kişi sayımları sunmaya yardımcı olabilir.
Atıf: Song, L., Li, T., Cai, Z. et al. Fourier transform-based single domain generalization for crowd counting. Sci Rep 16, 11744 (2026). https://doi.org/10.1038/s41598-026-46286-3
Anahtar kelimeler: kalabalık sayımı, alan genelleştirmesi, Fourier frekansı, bilgisayarla görme, yoğunluk haritaları