Clear Sky Science · tr
Yüksek doğruluklu içerik tabanlı görüntü geri kazanımı için entropi yönlendirmeli çok seviyeli özellik füzyon ağı
Doğru Görseli Hızlı Bulmak
Her gün tıbbi taramalar ve uydu görüntülerinden güvenlik kameraları ve kişisel fotoğraflara kadar şaşırtıcı sayıda fotoğraf üretiyor ve saklıyoruz. Bu görselleri elle etiketlemek ve aramak yavaş ve güvenilmez. Bu makale, bilgisayarların görüntülere doğrudan “bakarak” çok büyük ve çeşitli koleksiyonlarda bile yüksek doğrulukla istediğimiz görüntüleri bulmasını sağlayan daha akıllı bir yöntemi sunuyor.
Piksellere Bakmak Neden Yeterli Değil
Geleneksel görüntü arama genellikle dosya adlarına veya “kedi” ya da “bina” gibi basit etiketlere dayanır. Oysa insanlar her zaman görüntüleri dikkatli etiketlemez ve bilgisayarlar yalnızca ham pikselleri görür; insanların çıkardığı zengin anlamı değil. Önceki içerik tabanlı sistemler bu boşluğu renk, doku ve şekil gibi basit görsel ipuçlarıyla kapatmaya çalıştı. Bu ipuçları fayda sağladı, ancak genellikle sabit önem düzeyleriyle birleştirildiler. Bu da sistemin belirli bir aramanın farklı bir karışımdan fayda sağlayacağı durumlarda bile bazı özellikleri her zaman diğerlerinden daha önemli saydığı anlamına geliyordu. Sonuç olarak, görüntü türleri, aydınlatma veya sahneler değiştiğinde doğruluk düştü.
Çoklu Görüşlerin Birleştirilmesi
Yazarlar, iki ana görsel kanıt türünü birleştiren yeni bir geri kazanım çerçevesi öneriyor. Birincisi, ResNet50 ve VGG16 gibi karmaşık desenleri tanımayı öğrenmiş derin öğrenme modellerini kullanıyor. İkincisi ise renk dağılımları, kenarlar ve dokuları daha kontrollü şekilde yakalayan klasik “elle tasarlanmış” tanımlayıcıları ekliyor. Hangi özellik türünün ne kadar önemli olacağını önceden tahmin etmek yerine sistem verinin karar vermesine izin veriyor. Her özelliğin belirli bir arama için ne kadar bilgilendirici olduğunu ölçüyor ve etkisini anlık olarak ayarlıyor. Bu yüksek seviyeli ve düşük seviyeli ipuçlarının çok seviyeli karışımı, bilgisayarın bir görüntüde ne olduğunu daha zengin ve esnek bir şekilde anlamasına yardımcı oluyor.

Bilgi ve Güvenin Ağırlıkları Belirlemesine İzin Vermek
Yöntemin merkezinde entropi fikri var; bilgi ne kadar belirsiz veya yaygınsa onu ölçen bir kavram. İlgili ve ilgisiz görüntüleri tutarlı şekilde ayıran özelliklerin entropisi daha düşüktür ve bunlar daha “ayırt edici” olarak değerlendirilir. Yeni bir sorgu için sistem, her özelliğin veri tabanı genelinde nasıl davrandığını değerlendirir ve ona başlangıç bir önem puanı atar. Ardından her özelliğin arama sonuçlarının ne kadar güvenilir olduğunu—en iyi eşleşmelerin gerçekten sorguya benzer olup olmadığını—inceleyerek her tür ipucu için bir “güven” kavramı oluşturur. Bu güven puanları, erken web arama motorlarının hangi sayfaların daha önemli olduğuna karar verirken kullandıklarına benzer bir PageRank benzeri işleve beslenir ve olasılık transfer ağı aracılığıyla özellik ağırlıklarını rafine eder.
Akıllı Ağırlıklardan Daha İyi Sıralamalara
Sistem, mevcut sorgu için her özelliğe ne kadar güvenileceğini öğrendikten sonra, veritabanındaki her görüntü için bu özelliklerin benzerlik skorlarını tek bir genel ölçüde birleştirir. Görüntüler bu kapsamlı skora göre sıralanır, böylece sorguyla en anlamlı biçimde eşleşenler üst sıralara çıkar. Yazarlar yaklaşımını yaygın kullanılan görüntü karşılaştırma veri kümelerinde test eder ve birkaç mevcut yöntemle karşılaştırır. Ortalama ortalama doğrulukta (mean average precision) %8.6’ya varan kazanımlar ve ilk on sonuçta sıralama doğruluğu ve alaka açısından kayda değer iyileşmeler bildirilir. İstatistiksel testler bu iyileşmelerin tesadüfe bağlı olma olasılığının düşük olduğunu göstererek sistemin birçok görüntü türünde hem doğru hem de kararlı olduğunu düşündürür.

Günlük Görüntü Arama İçin Anlamı
Basitçe söylemek gerekirse, bu araştırma görüntü arama motorlarının katı kurallara güvenmek yerine her sorguya uyum sağlamasını nasıl mümkün kılacağını gösteriyor. Bilgi içeriği ve kazanılmış güvene hangi görsel ipuçlarının daha önemli olduğuna karar verme yetkisi verildiğinde, sistem doğru görüntüleri daha sık bulabilir; ister büyük bir suç veri tabanında bir parmak izini tespit etmek, ister uydu fotoğraflarında belirli bir binayı bulmak ya da doğru tıbbi taramayı getirmek olsun. Yazarlar yöntemin daha basit sistemlerden hesaplama açısından daha ağır olduğunu kabul ediyor, ancak daha yüksek güvenilirlik ve doğruluğun, doğru görüntüyü bulmanın gerçekten önemli olduğu büyük, kritik görüntü depoları için yöntemi uygun kıldığını savunuyor.
Atıf: Lavanya, M., Vennira Selvi, G., Gopi, R. et al. Entropy guided multi level feature fusion network for high precision content based image retrieval. Sci Rep 16, 7449 (2026). https://doi.org/10.1038/s41598-026-38699-x
Anahtar kelimeler: içerik tabanlı görüntü geri kazanımı, derin öğrenme, özellik füzyonu, görüntü arama, entropi ağırlıklandırması