Clear Sky Science · tr
S2SWCLIP: sıfır atış anomali tespiti için mekânsal-wavelet sinerjisiyle anlamsal olarak optimize edilmiş istemler
Hassas Veriler Paylaşılmadan Küçük Kusurları Yakalamak
Modern fabrikalar ve hastaneler kusurları ve hastalıkları yakalamak için giderek daha fazla kameraya dayanıyor, ancak yeterli sayıda kusurlu örneği toplamak ve etiketlemek zor—tıp alanında ise sıkça gizlilik kurallarıyla sınırlı. Bu makale, belirli bir üretim hattından veya hastaneden daha önce hiç örnek görmemiş olsa bile metaldeki çatlaklar veya taramalardaki şüpheli bölgeler gibi görüntülerdeki olağandışı desenleri tespit edebilen S2SWCLIP adlı bir tekniği tanıtıyor. Bunu, dilin akıllıca kullanımı ile görüntülerin içindeki şekil ve dokuları incelikle yakalayan bir yaklaşımı birleştirerek yapıyor.
Nadir Problemleri Bulmanın Neden Bu Kadar Zor Olduğu
Anomali tespiti, bir görüntünün veya tek bir pikselin normal mi yoksa kusurlu mu olduğunu söyleme görevidir. Üretim hatlarında ve tıbbi görüntülemede gerçek kusurlar nadir ve oldukça çeşitli olduğundan, geleneksel sistemler çoğunlukla normal örnekler üzerinde eğitilir ve “doğru görünen”i öğrenir. Başarılı birçok yöntem ya görüntüleri yeniden inşa edip farklılıkları işaretler ya da normal görünüşün kompakt bir tanımını oluşturup aykırı değerleri arar. Bu yaklaşımlar hedef ortama ait bazı veriler mevcut olduğunda iyi çalışır. Ancak gizlilik hassasiyeti olan veya sürekli değişen ortamlarda her yeni ürün veya vücut bölümü için modelleri yeniden eğitmek mümkün olmayabilir. CLIP gibi görüntü ve metni ilişkilendiren güçlü modellere dayanan son “sıfır-atış” yöntemleri, anormallikleri yalnızca sözcüklerle tanımlayarak tespit etmenin bir yolunu sunuyor. Bununla birlikte mevcut yaklaşımlar genellikle belirsiz metin istemlerine ve kaba görüntü özelliklerine dayanıyor; bu da normal ile anormal desenler arasındaki ayrımı bulanıklaştırabiliyor.

Normal ile Bozuk Arasındaki Dili Keskinleştirmek
S2SWCLIP önce dil tarafını ele alıyor. “Hasarlı bir nesne” gibi tek ve genel bir ifade kullanmak yerine, yöntem üç istem ailesi oluşturuyor. Birinci aile nesneye özgü olmayan, isimsiz bir öğenin normal veya hasarlı olduğunu anlatıyor. İkinci aile, “mükemmel” ile “şiddetle” gibi duygusal vurgulu sözcüklerle açıkça olumlu ve olumsuz durumları karşılaştırıyor; aynı zamanda kusursuz veya hatalı koşulları ima eden sözcük setleri içeriyor. Üçüncü aile ise çatlaklar veya çizikler gibi belirli kusur türlerini anarak hasarı daha somut hale getiriyor. Bu farklı ifadeler CLIP’in metin bölümünden geçirilir ve özel bir füzyon mekanizması onların iç sinyallerini karşılaştırıp birleştirir. Gürültülü bileşenleri filtreleyip güçlü şekilde korele olanları vurgulayarak, sistem herhangi bir görüntüye bakılmadan önce “normal” ve “anormal” kavramlarının daha zengin, daha iyi ayrılmış bir temsilini üretir.
Görüntülerde Hem Detayları Hem de Büyük Resmi Görmek
Görsel tarafta S2SWCLIP, CLIP’in görüntülere bakış şeklini yeniden çalışıyor. Standart sürümler genellikle geniş, genel izlenimlere öncelik vererek bir çatlağın ince çizgilerini veya erken hastalığı işaret eden hafif gölgelendirmeyi kaçırabilir. Bunu düzeltmek için yazarlar farklı çözünürlüklerden gelen bilgileri karıştıran hiyerarşik bir füzyon modülü ekliyor; böylece hem ince detaylar hem de büyük yapılar korunuyor. Ardından, bir görüntüyü düzgün arka plan bileşenleri ile daha keskin kenarlara veya dokulara ayıran klasik bir sinyal işleme aracı olan çiftli wavelet dönüşümü uygulanıyor. İki wavelet türü kullanılarak yöntem hem yumuşak küresel değişimleri hem de ani yerel değişiklikleri aynı anda yakalıyor ve ardından bunları frekans bilincine sahip özellik haritalarına yeniden birleştiriyor. Bu “mekân-wavelet sinerjisi”, doku veya frekansta öne çıkan, çıplak gözle neredeyse görünmez olabilecek küçük kusurlara karşı modelin daha hassas bir görüşünü sağlıyor.

Söylediklerimizle Gördüklerimizi Hizalamak
Son adım bu geliştirilmiş görüntü özelliklerini optimize edilmiş metin istemleriyle eşleştirmek. Tam görüntüler için S2SWCLIP her istemin temsilinin küresel görüntü tanımıyla ne kadar hizalandığını ölçüyor. Piksel düzeyindeki haritalar için ise, her yerel bölgenin metin özellikleriyle karşılaştırıldığında ne kadar bilgi taşıdığını inceleyen entropi tabanlı bir benzerlik skoru getiriyor. İstatistikleri anomali istemlerine yakın ama normal istemlerinden farklı olan bölgeler şüpheli olarak vurgulanıyor. Model bir endüstriyel ölçüt üzerinde ince ayarlandıktan sonra yeniden eğitilmeden, üretilmiş parçalar, dokular ve tıbbi görüntüler dahil 14 farklı veri kümesi üzerinde test ediliyor. Bu testlerin çoğunda S2SWCLIP, hem görüntü düzeyinde sınıflandırma hem de piksel düzeyinde yerelleştirmede önceki sıfır-atış yöntemlerini geride bırakıyor; üstelik hesaplama süresi ve eğitilebilir parametre sayısını makul düzeyde tutuyor.
Gerçek Dünya Muayenesi İçin Bunun Anlamı
Uzman olmayan birine ana mesaj şudur: S2SWCLIP basit “kırık mı?” sorgusunun ve kaba bakışın ötesine geçerek nüanslı dili mikroskop benzeri bir görüntü yapısı incelemesiyle birleştiriyor. Normal ve hatalı tanımları arasındaki kontrastı güçlendirerek ve görüntüleri çok ölçekli, frekans tabanlı bileşenlere ayırarak, yöntem her yeni ortama ait örneklere ihtiyaç duymadan kusurları daha güvenilir şekilde işaretliyor. Yine de karmaşık arka planlara karışan son derece ince anomalilerle zorlanabileceği durumlar olabiliyor; yazarlar daha yerel analiz ve gelişmiş geometriler gibi bu boşluğu kapatabilecek gelecek yönlerini de çiziyorlar. Genel olarak S2SWCLIP, minimal ek veriyle yeni endüstrilere ve tıbbi bağlamlara uyum sağlayabilecek esnek, gizliliğe duyarlı muayene sistemleri için umut verici bir adım sunuyor.
Atıf: Zhang, H., Wu, C., Lu, J. et al. S2SWCLIP: semantic-optimized prompts with spatial-wavelet synergy for zero-shot anomaly detection. Sci Rep 16, 13062 (2026). https://doi.org/10.1038/s41598-026-43044-3
Anahtar kelimeler: sıfır-atış anomali tespiti, görsel-dil modelleri, endüstriyel muayene, tıbbi görüntü analizi, wavelet görüntü özellikleri