Clear Sky Science · tr

Çok ölçekli nesne tespiti modeli: piramit görsel dönüştürücü (pyramid vision transformer) temelli

2026-03-12 · Dizine geri dön

Neden ince çatlaklar önemlidir

Köprüler ve tünellerden apartman kulelerine kadar, birçok modern yapı betondan yapılmıştır. Bu betondaki ince çatlaklar veya gizli kusurlar zamanla çökmelere, düşen enkazlara veya hatta bina çökmesine yol açabilir. Müfettişler hâlâ büyük ölçüde insan gözüne dayanıyor; bu yöntem yavaş, maliyetli ve küçük ama tehlikeli kusurları gözden kaçırabilir. Bu makale, farklı boyutlardaki beton kusurlarını daha doğru biçimde tespit etmek üzere tasarlanmış yeni bir yapay zekâ (AI) sistemi sunar; amaç binaları ve altyapıyı daha güvenli hale getirmektir.

Farklı boyutlarda kusurları görmek

Temel zorluk, kusurların tek bir uygun boyutta olmamasıdır. Geniş bir çatlak kameralar ve algoritmalar için kolayca yakalanabilirken, ince bir çatlak veya pas lekesi aynı derecede önemli ama tespit edilmesi çok daha zordur. Yaygın olarak kullanılan YOLO aile modellerinin daha eski sürümleri gibi klasik nesne tespit sistemleri, büyük ve iyi tanımlanmış nesnelerde iyi çalışır; ancak küçük, üst üste binen veya soluk olan nesnelerde genellikle zorlanır. Bu, inşaat, üretim ve sağlık gibi insan güvenliğinin kritik olduğu alanlarda özellikle risklidir. Yazarların hedefi, bir görüntü içinde hem büyük hem de küçük sorunları görebilen, ancak sahada kullanılabilecek hızdan çok ödün vermeyen bir dedektör geliştirmektir.

Hızlı görmeyi akıllı bir piramitle birleştirmek

Bunu yapmak için araştırmacılar iki güçlü fikri birleştirir. Görsel özellikleri nesnelerin etrafında sınırlayıcı kutulara dönüştürmede iyi olan en yeni YOLOv12 “tespit başlığını” (detection head) korurlar ve geleneksel omurgayı piramit görsel dönüştürücü ile değiştirirler. Yalnızca küçük piksel komşuluklarını taramak yerine bu dönüştürücü tüm görüntüye bakar ve kendine dikkat (self-attention) adlı bir süreç aracılığıyla uzak bölgelerin nasıl ilişkili olduğunu öğrenir. Aynı zamanda kaba genel bakışlardan ince ayrıntılara kadar farklı çözünürlüklerde bir özellik haritaları piramidi oluşturur, böylece küçük çatlaklar ve büyük hasar bölümleri birlikte temsil edilebilir. Bu çok ölçekli özellik haritaları daha sonra kusurların nerede ve ne olduğunu belirleyen YOLOv12’ye beslenir.

Eğitim görüntülerini temizlemek ve zenginleştirmek

Zeki bir model eşit derecede zeki eğitim verileri gerektirir. Gerçek dünya beton fotoğrafları gölgeler, düzensiz aydınlatma ve kusurları gizleyebilen pürüzlü dokularla karmaşıktır. Yazarlar, ham görüntülerden kusurların net “maskelerini” çıkarmak için sekiz adımlı bir ön işleme hattı tasarlar. Görüntüleri gri tonlamaya çevirir, gürültüyü kaldırır, soluk çatlakları ortaya çıkarmak için yerel kontrastı artırır, kusurların öne çıkması için parlaklığı tersine çevirir ve kırık çatlak parçalarını birleştirmek ile gerçekte hasar olmayan küçük lekeleri kaldırmak için şekil tabanlı işlemler uygular. Sonuç, her kusurun temiz bir dış hatlandır.

Gerçekçi sentetik kusurlar oluşturma

Tehlikeli kusurlar sağlam yüzeylere göre daha nadir olduğu için eğitim verileri dengesizdir: aksi halde model "kusur yok"u güvenli seçenek olarak öğrenebilir. Bunu düzeltmek üzere ekip, izole kusur maskelerinden oluşan bir kütüphane oluşturur ve bunları temiz beton arka planlarına rastgele konumlarda, açılarda ve boyutlarda yapıştırır. Basitçe kes-yapıştır yapmak yerine kusurun kenarlarının yeni yüzeyle doğal şekilde kaynaşması için yumuşak karıştırma (smooth blending) kullanırlar. Bu, gerçek çatlakların, pasın, dökülmelerin ve diğer hasar türlerinin görünümünü koruyan, aynı zamanda modelin eğitim sırasında gördüğü örnek çeşitliliğini büyük ölçüde artıran gerçekçi sentetik görüntüler üretir.

Ne kadar iyi çalışıyor?

Yazarlar, piramit-dönüştürücü-artı-YOLO sistemlerini, daha eski YOLO sürümleri, Faster R-CNN gibi klasik iki aşamalı modeller ve DETR ile DINO gibi son dönüştürücü tabanlı tasarımlar dahil olmak üzere birkaç algılayıcı ailesiyle kapsamlı şekilde karşılaştırır. Modelleri, güvenliğin en yüksek olduğu küçük kusurların tespitinde tutarlı olarak iyileşme gösterir ve orta ile büyük kusurlarda da rekabetçi performans sergiler. Ayrıca omurga olarak farklı bir dönüştürücü (Swin) kullanan ilgili bir tasarımdan daha iyi performans gösterir; bunu daha az parametre ve biraz daha düşük hesaplama ile başarır. Dönüştürücü omurga, en hafif YOLO varyantlarından biraz daha yavaş tahmin yapsa da, özellikle gürültülü beton dokularındaki ince kusurlarda sağlanan doğruluk artışı kayda değerdir.

Daha keskin dijital gözlerle daha güvenli yapılar

Pratik açıdan bu araştırma, piramit görsel dönüştürücüyü modern bir tespitçiyle (YOLO gibi) eşleştirmenin küçük kusurları yanlış alarm seline boğmadan tespit etmede yapay zekâyı önemli ölçüde iyileştirebileceğini gösterir. Model, ham ve dağınık denetim fotoğraflarını çok ölçekli, küresel olarak bilgilendirilmiş temsillere dönüştürerek çeşitli boyutlardaki çatlakları, pası ve dökülmeleri öne çıkarır. Geliştirilmiş veri hazırlığı ve sentetik eğitim görüntüleri sayesinde gerçek kusurları zararsız yüzey desenlerinden ayırt etmeyi öğrenir. Hız ile doğruluk arasında hâlâ bir ödünleşim olsa da, bu yaklaşım otomatik denetimi güvenilir gerçek dünya kullanımına yaklaştırır—yapılı çevremizdeki maliyetli ve tehlikeli başarısızlıkları önlemeye yardımcı olacak daha keskin dijital gözler sunar.

Atıf: Baek, JW., Suh, D. & Chung, K. Multiscale object detection model based on pyramid vision transformer. Sci Rep 16, 13307 (2026). https://doi.org/10.1038/s41598-026-43522-8

Anahtar kelimeler: beton kusur tespiti, piramit görsel dönüştürücü, YOLO nesne tespiti, çok ölçekli görme, altyapı güvenliği