Clear Sky Science · tr

İşlemeli çanta desenlerinin akıllı tanınması: YOLO serileri ile RT-DETR karşılaştırması

2026-04-16 · Dizine geri dön

Neden eski işlemeli çantalar bugün önemli

Çin genelinde, küçük işlemeli çantalar bir zamanlar otlar, muska ve iyi dilekleri taşırdı. Bugün bunların çoğu yalnızca müze çekmecelerinde ve özel koleksiyonlarda hayatta kalıyor. Her küçük nakışlı çiçek ya da ejderha inançlar, moda ve günlük yaşam hakkında hikâyeler kodlayan birer işarettir. Ancak bu zengin süslemeli nesneleri elle dijitalleştirmek ve kataloglamak son derece yavaştır. Bu çalışma, modern yapay zekânın bu çantaların üzerindeki desenleri otomatik olarak nasıl tanıyabileceğini araştırıyor; böylece müzeler ve topluluklar somut olmayan kültürel mirasın önemli bir dalını dijital çağda korumaya yardımcı olabilir.

Elle ve gözle tanımdan akıllı tanımaya

Geleneksel olarak uzmanlar çanta desenlerini fotoğrafları dikkatle inceleyerek ve referans kitaplara başvurarak tanımlardı. Bu yöntem, arşivlere dağılmış on binlerce öğeye ölçeklenmiyor. Araştırmacılar bunun yerine kitaplardan ve büyük bir müzenin dijital arşivinden derledikleri 783 işlemeli çantadan oluşan özel bir görüntü koleksiyonu oluşturdu. Bitkiler ve çiçekler, kuşlar ve hayvanlar, böcekler ve su yaşamı, peyzajlar ve yapılar, semboller ve karakterler, figürler ve hikâyeler, eserler ve antikalar ve geometrik desenler gibi sekiz yaygın motif kategorisi tanımlayıp her görüntüdeki her desenin etrafına dikkatlice kutular çizdiler. Veri setinin küçük olmasına karşı koymak için görüntüleri dijital olarak çevirdiler, döndürdüler, parlaklıklarını artırıp azalttılar ve bulanıklaştırdılar; böylece eğitim malzemesini dört kattan fazla genişleterek etiketleri hem yazılım hem de kültürel miras uzmanlarıyla kontrol ettiler.

Popüler yapay zekâ araçlarını teste tabi tutmak

Bu küratörlü veri setiyle ekip, iki nesne tespiti sistemi ailesini karşılaştırdı. YOLO olarak bilinen bir aile, video içinde yaya ya da araç tespiti gibi hızlı görevlerde yaygın olarak kullanılıyor. Bu modeller görüntüye tek geçişte bakar ve büyük ölçüde yerel parçalara dayanır. Diğer yeni tasarım olan RT-DETR ise geleneksel görüntü filtrelerini dönüştürücü tarzı dikkat mekanizmasıyla birleştirir; bu sayede küçük nakışları bütün sahneyle bağlayabilir. Yazarlar önce birkaç YOLO varyantını ayarlayıp güçlü bir temel model olarak YOLOv5m’yi seçtiler. Bu model bazı kategorilerde—özellikle “Figürler ve Hikâyeler” altında toplanan karmaşık anlatı sahnelerinde—makul performans gösterdi, ancak motifler küçük, yoğun şekilde üst üste binmiş veya arka plana karışmışsa zorluk yaşadı. Bu gibi durumlarda çiçekler kaybolabiliyor, geometrik sınırlar yanlış okunuyor ve görüntü parçaları yanlışlıkla boş arka plan olarak etiketleniyordu.

Hibrit bir dönüştürücü nakışları nasıl görüyor

Araştırmacılar daha sonra bu alışılmadık görsel zorluk için RT-DETR’yi geliştirmeye odaklandı. Standart omurgasını, ince dokuları yakalarken aynı zamanda daha geniş sahneyi görebilecek şekilde tasarlanmış modern bir konvolüsyonel ağ olan ConvNeXt-Large ile değiştirdiler. Ayrıca modele kolay karışan, zor örneklere kolay örneklerden daha fazla dikkat etmesini söyleyen Focal Loss adlı eğitim stratejisini benimsediler. RT-DETR içinde çanta görüntüsünden özellikler birden fazla ölçekte çıkarılıp birleştirilirken, dikkat mekanizması eşleşen hayvan çiftleri veya tekrarlayan bordürler gibi uzak fakat ilişkili bölgeleri bağladı. Ayrıntılı yoklama çalışmaları ve öğrenme takvimleri ile düzenleme ayarlarının adım adım ayarlanması sayesinde yazarlar doğruluk ve kararlılığı birçok eğitim çalıştırması boyunca dengeleyen optimize bir konfigürasyona ulaştılar.

Geliştirilmiş sistemin gerçekte başardıkları

Standart nesne tespiti skorlarında, geliştirilmiş RT-DETR açıkça YOLO modellerini geride bıraktı. Ana doğruluk metriği olan mAP@0.5 değeri 0,5433’e ulaştı—bu, YOLOv5m temel modele göre yaklaşık %33’lük bir iyileşme—ve istatistikler bu kazancın tesadüf olma olasılığının düşük olduğunu gösterdi. Sistem özellikle karmaşık anlatı sahnelerinde başarılı oldu; “Figürler ve Hikâyeler” için ortalama doğruluk 0,833 seviyesine çıktı ve YOLO’nun kaçırdığı birçok motifi, özellikle peyzajlar ve geometrik bordürler gibi seyrek veya az temsil edilen kategorilerde kurtardı. Ayrıca tekrarlanan deneyler boyunca daha tutarlı davranış sergiledi; bu da tek bir eğitim–test bölünmesine aşırı uyum yerine güvenilir bir performans olduğunu gösteriyor. Dezavantaj ise boyut: en iyi RT-DETR modeli, YOLO muadillerine göre çok daha büyük ve ağır, bu da hafif cihazlarda konuşlandırmayı sınırlayabilir.

Kültürel miras için bunun anlamı

Uzman olmayanlar için ana mesaj şudur: bilgisayarlar artık sadece arabaları ve yüzleri bulmayı değil, geleneksel zanaatın dilini okumayı da öğreniyor. Dönüştürücü tabanlı bir tespitçinin, dikkatle uyarlanıp eğitildiğinde, yoğun ve üst üste binmiş işlemeli motifleri popüler gerçek zamanlı modellere göre daha doğru biçimde ayırt edebileceğini göstererek bu çalışma gelecekteki araçlar için bir kıstas belirliyor. Müzeler ve kültürel kurumlar zamanla bu tür sistemleri motif bazlı geniş fotoğraf koleksiyonlarında arama yapmak, belli sembollerin nasıl evrildiğini izlemek ya da zanaatkârların eski tasarımları yeniden canlandırmasına yardımcı olmak için kullanabilir. Yazarlar performansın hâlâ orta düzeyde olduğunu ve daha hafif modeller ile kültürel bilgi ve metin açıklamalarının eklenmesi gibi ilave iyileştirmelere ihtiyaç olduğunu vurguluyor; buna rağmen çalışma, işlemeli çanta mirasının akıllı ve saygılı dijital yönetimine doğru atılmış önemli bir adımı işaret ediyor.

Atıf: Yang, H., Sui, Q., Xie, H. et al. Intelligent recognition of embroidered purse patterns: comparing YOLO series and RT-DETR. npj Herit. Sci. 14, 251 (2026). https://doi.org/10.1038/s40494-026-02518-3

Anahtar kelimeler: işleme deseni tanıma, somut olmayan kültürel miras, nesne tespiti, dönüştürücü tabanlı görsel, dijital koruma