Clear Sky Science · tr
NESNELERİN TANINMASININ EVRİMİ: CNN’LERDEN TRANSFORMERLARA VE ÇOK MODLU FÜZYONA
Bilgisayarlara Günlük Nesneleri Görmeyi Öğretmek
Telefonunuz bir fotoğrafta arkadaşları etiketlediğinde, bir otomobil yoldaki bir yayayı tespit ettiğinde veya bir doktorun aracı bir taramada tümörü vurguladığında, sessiz ama güçlü bir teknoloji devrededir: nesne tespiti. Bu derleme makalesi, nesne tespitinin son on yılda nasıl hızla evrildiğini—erken görüntü işleme hilelerinden bugünün transformer tabanlı ve çok sensörlü sistemlerine—ve bu ilerlemelerin neden daha güvenli sokaklar, daha akıllı robotlar ve daha doğru tıbbi teşhisler için önemli olduğunu açıklar.
Pikselden Tanınabilir Şeylere
Nesne tespiti, görüntü veya videolarda belirli öğeleri—otomobiller, bisikletliler, hayvanlar, tıbbi yapılar ve daha fazlasını—bulma ve etiketleme görevidir. Makale, bu yeteneğin otonom sürüş, gözetim, tıbbi görüntüleme ve robotik gibi alanlarda nasıl yaygın şekilde kullanıldığını ortaya koyarak başlar. Erken sistemler şekil ve doku seçmek için el yapımı kurallara dayanıyordu; modern yaklaşımlar ise doğrudan veriden öğrenen derin öğrenmeyi kullanır. Şu anda iki geniş aile hakimdir: kenar ve köşe gibi yerel desenleri yakalamada çok iyi olan konvolüsyonel sinir ağları (CNN’ler) ve daha geniş sahneyi ve uzak nesneler arasındaki ilişkileri anlamada üstün olan transformerler. Birlikte, günümüz makinelerinin dünyayı “görme” biçimini tanımlarlar.
Klasik Görüntü Motorları Nasıl Çalışır
CNN tabanlı yöntemler hâlâ birçok gerçek zamanlı uygulamaya güç sağlar. Görüntüleri küçük filtrelerle tarayıp giderek daha zengin özellik haritaları oluşturur, ardından bunları sınırlayıcı kutular çizen ve etiket atayan tespit başlıklarına beslerler. Derleme, iki ana stratejiyi açıklar. Faster R-CNN gibi iki aşamalı sistemler önce muhtemel nesne bölgelerini önerir, sonra bunları iyileştirir; genellikle yüksek doğruluk sağlar fakat hesaplama maliyeti daha yüksektir. YOLO ailesi gibi tek aşamalı sistemler öneri adımını atlayıp kutuları ve etiketleri tek geçişte tahmin eder; doğrulukta biraz taviz verip hız kazanırlar. YOLOv5 ve YOLOv8’in son sürümleri yoğun şekilde ayarlanmış—küçük nesneler için daha akıllı özellik piramitleri, uç cihazlar için hafif yapı taşları ve geliştirilmiş kayıp fonksiyonları eklenmiş—böylece zorlu kıyaslarda rekabetçi kalırken yüzlerce kare/saniye hıza ulaşabiliyorlar.
Transformerlar ve Bağlamın Gücü
Makale daha sonra dil modellerinden ödünç alınan daha yeni bir mimari olan transformerlara döner. Sadece yerel komşuluklara odaklanmak yerine, transformerlar "self-attention" kullanarak bir görüntünün her yamasını diğer tüm yamalarla karşılaştırır ve hangi bölgelerin her karar için en alakalı olduğunu öğrenir. Detection Transformer (DETR) ve takipçileri birçok el yapımı hileyi ortadan kaldırarak daha temiz, uçtan uca boru hatları hedefler. Deformable DETR ve RT-DETR gibi varyantlar hesaplamayı azaltır ve eğitim hızını iyileştirir; bu sayede transformerlar gerçek zamanlı çalışabilir hale gelirken yaygın kullanılan COCO kıyasında en yüksek doğruluk puanlarından bazılarına ulaşır. Bu modeller özellikle örtüşen nesnelerin ve kafa karıştırıcı arka planların bulunduğu karmaşık sahnelerde parlıyor; global bağlam, örneğin bir arabanın arkasında kısmen saklanmış bir yayayı ayırt etmeye yardımcı olur.
Kameralar, Lazerler ve Dilin Karması
Gerçek dünya koşulları—sis, karanlık, parlama, karmaşa—çoğu zaman tek sensörlü sistemleri zorlar. Derlemenin önemli bir odak noktası çok modlu füzyon: normal kameralar (RGB), LiDAR gibi derinlik sensörleri, termal kameralar ve hatta metin açıklamalarından gelen verilerin birleştirilmesi. Yazarlar, bu harmanın nasıl gerçekleşebileceğine dair net bir taksonomi sunar: erken füzyon ham verileri baştan karıştırır, orta füzyon ağ içinde öğrenilmiş özellikleri birleştirir ve geç füzyon farklı algılayıcıların çıktısını sonunda birleştirir. Modern "füzyon transformerları" bu akışları hizalamak için dikkat mekanizmalarını kullanır; böylece LiDAR’dan gelen hassas mesafe ölçüleri, RGB görüntülerinin zengin görünümü ve dilden gelen anlamsal ipuçları birbirini güçlendirir. Bu yaklaşım otonom sürüşte, tıbbi görüntülemede, video anlayışında ve metin zengin sahnelerde tespiti artırır.
Kıyaslar, Sınırlamalar ve Gelecek
MS COCO gibi standart testler üzerinden derleme, CNN ve transformer tespitçilerini hem doğruluk hem de hız açısından karşılaştırır. Klasik iki aşamalı CNN’ler güçlü kalmaya devam eder fakat daha yavaştır; YOLO tarzı modeller hafif donanımda baskındır; transformer tabanlı sistemler ise doğrulukta öne geçerken hız farkını kapatmaktadır. Özelleşmiş kızılötesi yöntemler düşük görünebilirlik koşullarında çok yüksek puanlar elde eder. Yine de zorlu problemler sürmektedir: çok küçük veya son derece büyük nesneler, yoğun örtüşme, değişen hava ve aydınlatma koşulları ve küçük cihazlarda güvenilir çalıştırma gereksinimi. İleriye bakıldığında yazarlar, tespit, segmentasyon ve altyazılamayı birlikte ele alan birleşik algı modellerine ve görme ile dili birleştirip eğitim verilerinde etiketlenmemiş nesneleri bile tanıyabilen "foundation" modellerine doğru eğilimleri vurgular.
Günlük Yaşam İçin Neden Önemli
Uzman olmayanlar için temel mesaj şudur: nesne tespiti dar, el ayarlı sistemlerden yeni görevlere, yeni ortamlara ve yeni sensörlere uyum sağlayabilen esnek, genel amaçlı görsel motorlara doğru ilerliyor. CNN’ler hızlı, verimli desen tanıma sağlar; transformerlar daha küresel, bağlam odaklı bir anlayış ekler; çok modlu füzyon ise derinlik, sıcaklık ve dil gibi ek ipuçlarını devreye sokar. Bu ilerlemeler birlikte, tehlikeleri daha iyi öngören otomobiller, doktorlara daha fazla güvenle yardımcı olan araçlar ve çevreleriyle daha güvenli ve akıllıca etkileşime giren ev cihazları vaat ediyor—makine algısını insan görüşünün zenginliğine daha da yaklaştırıyor.
Atıf: Wang, Z., Chen, Y., Gu, Y. et al. The evolution of object detection from CNNs to transformers and multi-modal fusion. Sci Rep 16, 7517 (2026). https://doi.org/10.1038/s41598-026-37052-6
Anahtar kelimeler: nesne tespiti, bilgisayarlı görü, derin öğrenme, transformer modelleri, çok modlu füzyon