Clear Sky Science · tr

Hibrit renk, doku ve derin öğrenme özellikleriyle geliştirilmiş içerik tabanlı görsel arama

2026-03-24 · Dizine geri dön

Doğru resmi bulmanın önemi

Tıbbi taramalardan tatil fotoğraflarına kadar hayatımız görüntülerle dolu. Ancak büyük bir koleksiyonda ihtiyaç duyduğumuz tek resmi bulmak şaşırtıcı derecede zor olabilir. Bu çalışma, bilgisayarların etiketlere veya dosya adlarına güvenmek yerine resmin içinde ne olduğunu doğrudan inceleyerek büyük görsel veritabanlarını aramasını sağlayan CTD-Net adlı yeni bir yöntemi tanıtıyor. Çalışma, klasik görüntü analizini modern derin öğrenme ile harmanlamanın görsel aramayı hem daha doğru hem de gerçek dünya koşullarında daha kullanışlı hale getirebileceğini gösteriyor.

Figure 1. Akıllı bir görsel arama sisteminin, büyük bir koleksiyonda en yakın eşleşen fotoğrafları bulmak için resim içeriğini ve yapay zekâyı nasıl birleştirdiği.

Bilgisayarlar genellikle görüntüleri nasıl arar

Erken dönem görsel arama araçları başlıklarda ve anahtar kelimelerde olduğu gibi insan tarafından eklenen metinlere dayanıyordu. Bu yaklaşım yavaş, maliyetli ve sıklıkla eksik oluyor, çünkü farklı kişiler aynı sahneyi farklı şekillerde tanımlar. İçerik tabanlı görsel arama çehreyi değiştirerek bilgisayarın her resmin içindeki renkleri, şekilleri ve dokuları incelemesine izin veriyor. Ancak birçok mevcut sistem karmaşık sahneler için hâlâ yetersiz kalıyor. Basit renk veya doku formülleri önemli ayrıntıları kaçırabilirken, saf derin öğrenme modelleri büyük veri kümelerine ihtiyaç duyabiliyor ve bazen yorumlanması zor olabiliyor. Sonuç, bilgisayarın sayılar halinde gördükleri ile insanların anlamlı olarak tanıdığı içerik arasında bir uçurum olmasıdır.

Basit görsel ipuçlarını derin öğrenmeyle harmanlamak

CTD-Net bu uçurumu, her görüntüden iki tür ipucunu birleştirerek kapatıyor. İlk olarak, temel görsel özellikleri tanımlayan el yapımı (handcrafted) özellikler çıkarılıyor. Renk histogramları ve renk momentleri, tonların resim boyunca nasıl dağıldığını özetlerken, dalgacık dönüşümleri (wavelet transforms) ve yerel ikili desenler (local binary patterns) ince doku desenlerini ve kenarları yakalıyor. İkinci olarak, aynı görüntü EfficientNet-B7 adlı güçlü bir derin sinir ağına verilerek nesne parçaları ve karmaşık düzenler gibi daha soyut örüntüler öğreniliyor. Tüm bu sinyaller dikkatle ölçeklenip tek uzun bir özellik vektöründe birleştirilerek hem basit görünümü hem de daha zengin sahne anlamını yakalıyor.

Figure 2. Renk, doku ve derin sinir ağı özelliklerinin, görüntüleri karşılaştırmak ve en benzer arama sonuçlarını sıralamak için nasıl birleştiği.

Özellikleri daha iyi arama sonuçlarına dönüştürmek

Her görüntünün birleşik parmak izi oluşturulduktan sonra CTD-Net iki parmak izinin ne kadar benzer olduğunu ölçüyor. Yazarlar bunları karşılaştırmak için birkaç matematiksel yöntem test etti ve kosinüs benzerliğinin en güvenilir eşleşmeleri verdiğini buldular. Uygulamada bir kullanıcı bir sorgu görüntüsü gönderiyor, CTD-Net bunu özelliklere dönüştürüyor ve ardından veritabanındaki tüm görüntüleri özellik vektörlerinin ne kadar yakın olduğuna göre sıralıyor. Ekip performansı üç iyi bilinen koleksiyonda değerlendirdi: Corel-1K, Corel-10K ve Caltech-101; bu veri kümeleri birlikte doğal sahneleri, insan yapımı nesneleri ve farklı kategoriler ile görüntü koşullarını kapsıyor.

Yeni sistem ne kadar iyi performans gösteriyor

Üç veri kümesinin tamamında CTD-Net yalnızca el yapımı özelliklere, yalnızca derin öğrenmeye veya daha basit hibritlere dayanan sistemleri tutarlı bir şekilde geride bıraktı. Corel-1K’de yaklaşık yüzde 99’a yakın, Corel-10K’de yüzde 92’nin üzerinde ve daha zorlu Caltech-101 setinde neredeyse yüzde 89 doğruluk değerlerine ulaştı. Bu kazanımlar sorgu başına daha fazla sonuç döndürüldüğünde ve birçok güncel araştırma yöntemiyle karşılaştırıldığında da sürdü. Hibrit özellikler daha büyük ve daha fazla hesaplama gerektirse de, yazarlar özellikle doğruluğun kritik olduğu toplu veya sunucu tabanlı kullanımlarda arama sürelerinin pratik kaldığını gösteriyor.

Günlük görsel arama için bunun anlamı

Bir uzman olmayan için mesaj, daha akıllı görsel aramanın insanların resimleri tanıma biçimine daha çok benzemesi yönünde ilerlediği. Doğrudan renk ve doku ölçümlerini daha derin öğrenilmiş anlayışla harmanlayarak CTD-Net, yalnızca aynı anahtar kelimeyi paylaşan değil, bir sorgu fotoğrafına gerçekten görsel ve duygusal olarak benzer olan görüntüleri bulabiliyor. Bu, benzer tıbbi taramaları bulmayı, sanat eserleri veya tarihî fotoğrafları eşleştirmeyi ya da çevrimiçi mağazalarda ürün aramasını iyileştirmeyi hızlandırabilir. Yazarlar gelecekte aynı fikrin daha büyük koleksiyonlara ve yeni görüntü türlerine uyarlanabileceğini, görsel aramayı daha hızlı, daha doğru ve daha güvenilir hale getirebileceğini öneriyor.

Atıf: Tyagi, S., Shukla, P., Singh, P. et al. Enhanced content-based image retrieval via hybrid color, texture, and deep learning features. Sci Rep 16, 14888 (2026). https://doi.org/10.1038/s41598-026-38422-w

Anahtar kelimeler: içerik tabanlı görsel arama, görsel arama, derin öğrenme, görüntü özellikleri, görsel benzerlik