Clear Sky Science · tr

Kuantum ve klasik çok modlu füzyon ağına dayalı çok modlu kültürel miras görüntü tanıma

2026-03-17 · Dizine geri dön

Bilgisayarlara antik hazineleri öğretmenin önemi

Müzeler ve arşivlerdeki kültürel hazineler giderek daha fazla fotoğraflanıp çevrimiçi hale getiriliyor, ancak bu görüntülerin çoğu yetersiz etiketlenmiş ya da hiç etiketlenmemiş durumda. Bu, ziyaretçilerin, öğretmenlerin ve araştırmacıların aradıklarını bulmasını zorlaştırıyor ve kamuoyunun insanlığın ortak mirasını derinlemesine keşfetme olanağını sınırlıyor. Bu makale, iki nadiren birleşen fikri birleştirerek—müze koleksiyonları ve kuantum hesaplama—bu tür görüntüleri otomatik olarak tanıma ve sınıflandırma için yeni bir yol araştırıyor.

Tozlu depolardan dijital koleksiyonlara

Günümüzde müzelerde bronzlardan lake işçiliğine, nakışlı cüppelere kadar milyonlarca nesne bulunmaktadır. Birçok kurum, internet bağlantısı olan herkesin bu koleksiyonları inceleyebilmesi için hızla dijitalleştirme çalışmaları yürütüyor. Ancak görüntüler çevrimiçi hale geldiğinde, gerçekten kullanılabilir olmaları için emaye, jade, ipek veya brokar gibi doğru kategorilere yerleştirilmeleri gerekiyor. Geleneksel yapay zeka araçları genellikle yalnızca her görseldeki piksel bilgisine bakıyor. Küratörler ve tarihçiler tarafından nesnelere eklenen zengin yazılı açıklamaları göz ardı ediyorlar; oysa bu başlıklar sık sık malzeme, renk ve göze görünmeyen motiflerden bahsediyor. Koleksiyonlar büyüdükçe klasik algoritmalar hız, enerji kullanımı ve karmaşıklık açısından da zorluk yaşıyor.

Görüntüleri sözcüklerle, bitleri kubitlerle eşleştirmek

Yazarlar, Kuantum-Klasik Çok Modlu Füzyon Modeli adını verdikleri bir model öneriyor. “Çok modlu” burada birden fazla bilgi türüne aynı anda dikkat edildiği anlamına geliyor—bu durumda hem bir eserin görüntüsü hem de başlığı. Önce, büyük veri kümeleri üzerinde eğitilmiş iyi yerleşik araçlar kullanılıyor: şekil ve dokuları yakalamak için derin bir görüntü ağı ve başlığın anlamını yakalamak için bir dil modeli. Ardından özel bir dikkat mekanizması, görüntünün hangi bölgelerinin hangi sözcüklerle eşleşme eğiliminde olduğunu öğreniyor. Örneğin başlık “altın ejderha” derse, model ejderha biçimindeki, altın renkli bölgelere odaklanmayı öğreniyor. Bu, görme ve dili harmanlayan ortak bir tanım üretiyor.

Sinyalleri karıştırmak için kuantum devrelerine izin vermek

Görüntü ve metin özellikleri çıkarıldıktan sonra, model bunları küçük bir simüle edilmiş kuantum devresine besliyor. Günümüz kuantum donanımı yalnızca sınırlı sayıda kubite sahip olduğu için yazarlar birçok klasik değeri birkaç kubitin genliklerine paketleyen bir sıkıştırma şeması kullanıyor. Kuantum bölümünün içinde, bireysel kubitlere ardışık olarak dönüşümler uygulayan ve ardından onları dolaşıklığa sokan—yani durumlarını birbirine bağımlı hale getiren—iki aşamalı bir devre tasarlanıyor. Bu yapı, aksi takdirde gözden kaçabilecek görsel desenler ile başlık ipuçları arasındaki ince ilişkileri ortaya çıkarmayı amaçlıyor. Bu kuantum işleminden sonra kubitlerin durumu ölçülüp sıradan sayılara dönüştürülüyor ve son olarak nesnenin kategorisini tahmin eden sınıflandırıcıya veriliyor.

Yeni yaklaşımı teste tabi tutmak

Yöntemlerinin gerçek faydalar sağlayıp sağlamadığını görmek için araştırmacılar, Saray Müzesi’nden iki yeni veri seti derlediler: biri emaye, altın ve gümüş işleri, lake, bronz ve jade gibi fiziksel eserleri; diğeri ise ipek, saten, brokar ve kesi olarak bilinen karmaşık dokuma tarzı gibi tekstilleri odak noktasına alan. Her görüntü resmi bir başlık ve müzenin kayıtlarından güvenilir bir etiketle birlikte geliyor. Kuantum–klasik füzyon modellerini yalnız görüntü sistemleri, yalnız metin sistemleri ve her ikisini birleştiren diğer teknikler dahil olmak üzere güçlü rakiplerle karşılaştırdılar. Her iki veri setinde de yeni model doğruluk ve ilgili ölçütlerde en yüksek puanları elde etti ve ileri çok modlu ve kuantum esinli karşılaştırma yöntemlerini dahi geride bıraktı. Daha ileri deneyler, performansının kubit sayısına ve devre derinliğine nasıl bağlı olduğunu ve simülasyonda yaygın kuantum gürültüsü türleri eklendiğinde bile güvenilir kaldığını gösterdi.

Gelecekteki müze ziyaretçileri için olası sonuçlar

Uzman olmayanlar için ana mesaj, görüntüleri, sözcükleri ve kuantum esinli işlemi karıştırmanın bilgisayarların farklı kültürel nesne türlerini ayırt etmesini iyileştirebileceği. Kuantum kısmı şu anda tam ölçekli kuantum makinelerinde değil simülatörlerde çalıştırılsa da çalışma, donanım olgunlaştıkça daha verimli ve ifade gücü yüksek araçlara giden bir yol öneriyor. Pratik anlamda, bu tür sistemler müzelerin ve arşivlerin yeni yüklemeleri otomatik olarak sıralamasına, eski kayıtları temizlemesine ve insanların “jade ritüel kapları” ya da “nakışlı ejderha cüppeleri” gibi aramalar yapıp gerçekten istediklerini bulmalarını kolaylaştırmasına yardımcı olabilir. Çalışma, kuantum hesaplamanın dijital çağda kültürel mirası anlamak ve korumak için faydalı yeni bir yol olabileceğine işaret ediyor.

Atıf: Fan, T., Wang, H., Zhao, Y. et al. Multimodal cultural heritage image recognition based on quantum and classical multimodal fusion network. npj Herit. Sci. 14, 160 (2026). https://doi.org/10.1038/s40494-026-02419-5

Anahtar kelimeler: kültürel miras görüntüleri, kuantum makine öğrenimi, çok modlu füzyon, müze dijitalleştirme, görüntü tanıma