Clear Sky Science · tr
Sanatın çapraz-medya stil transferi: GAN'lerle çeşitli medyalarda sanatsal niyeti korumak
Yapay zekâya sanat stillerini öğretmenin önemi
Bir yapay zekâdan “sakin bir göl üzerinde gün batımı” sahnesini Monet, Picasso veya bir pop sanatçısının fırçasından geçmiş gibi resmetmesini istediğinizi hayal edin. Günümüz metinden-görsele sistemleri istekteki nesneleri yerleştirme konusunda başarılı olsa da, her bir sanat tarzını özgün kılan dokunuşlar söz konusu olduğunda sık sık tökezlerler. Bu makale, yapay zekâya daha zengin bir stil duygusu kazandırmanın yeni bir yolunu araştırıyor; böylece üretilen dijital sanat hem yazılı isteme hem de taklit etmeyi amaçladığı sanat akımına sadık kalabilecek.

Sözlerden ve gürültüden görüntülere
Difüzyon modellerine dayanan modern görüntü üreticiler rastgele bir gürültüden başlar ve kısa bir metin açıklamasıyla eşleşen bir görüntüyü aşamalı olarak şekillendirir. Doğru nesneleri doğru yerlere koyma konusunda dikkat çekici derecede iyidirler, ancak nasıl resmedileceği — İzlenimcilik ya da Kübizm’i tanımlayan dokular, renk seçimleri ve fırça işçiliği gibi — konularında zorlanırlar. Bunu düzeltme girişimleri genellikle her stil için çok sayıda örnek görüntüye, büyük modellerin kapsamlı yeniden ayarlanmasına veya karmaşık çok adımlı sistemlere dayanıyordu. Bu yaklaşımlar güçlü olabilir, ama yavaş, pahalı ve günlük sanatçılar veya tasarımcılar için kullanımı zor olabilir.
Stilleri kompakt hafızalar olarak öğretmek
Çalışma, dinamik stil gömmeleri adı verilen daha basit bir fikir sunuyor. Her yeni stil için tüm modeli yeniden eğitmek yerine sistem, her stil için yalnızca tek bir kompakt sayısal “token” öğrenir. WikiArt koleksiyonundan İzlenimcilik, Kübizm, Gerçekçilik ve Pop Art dahil olmak üzere 27 böyle token vardır. Model bir görüntü ürettiğinde hem metin başlığını hem de seçilen stil tokenını okur ve bunları tek bir yol gösterici sinyale birleştirir. Bu sinyal modele ne çizileceğini olduğu kadar sonucun renk, doku ve genel atmosfer açısından nasıl görünmesi gerektiğini de söyler. Stil küçük bir vektör olarak saklandığı için yeni stiller düşük ek maliyetle eklenebilir veya karıştırılabilir.
Stil, içerik ve yumuşak karışımı dengelemek
Bu sistemi eğitmek için yazarlar önce başka bir yapay zekâ aracını kullanarak çok daha büyük WikiArt veritabanından alınan yaklaşık sekiz bin tabloya altyazılar yazdırdılar. Ardından üreticiyi aynı anda üç hedef arasında denge kurmaya iten bir eğitim tarifi tasarladılar. Bir stil kaybı çıktının referans bir tabloyla desen ve dokular açısından benzerlik göstermesini teşvik eder. Bir algısal (perceptual) kayıp sonuçta başlıkta tanımlanan ana şekil ve nesnelerin korunmasını teşvik eder. Bir karıştırma kaybı ise tokenlar karıştırıldığında iki stil arasında modelin yumuşak geçiş yapmasını öğretir; böylece bir resim örneğin İzlenimcilikten Pop Art'a keskin kırılmalar olmadan kademeli olarak kayabilir. Tüm bunlar ek ağlar eklemeden veya üretim zamanında stil örnek görüntülerine ihtiyaç duymadan standart bir Stable Diffusion modeli içinde gerçekleşir.

Yapay zekânın sanat görünümünü ne kadar iyi öğrendiği
Araştırmacılar yöntemlerini birkaç farklı şekilde değerlendirdiler. Üretilen görüntülerin genel dağılımının orijinal veri setinin dağılımına ne kadar benzediğini kontrol eden standart bir ölçü kullanarak görüntülerini gerçek sanat eserleriyle karşılaştırdılar. Yaklaşımları, ayarlanmamış bir Stable Diffusion temel hattından daha iyi puan alarak gerçek sanata daha yakın bir hizalanma olduğunu öne sürdü. Ayrıca bir görsel–dil modelini, bir görüntünün hem altyazısıyla hem de amaçlanan stil adıyla ne kadar iyi eşleştiğini görmek için kullandılar ve üretilen görüntülerin stillerini otomatik olarak sınıflandırmada neredeyse %90 doğruluğa ulaştılar. Diğer stil transfer sistemleriyle yapılan görsel karşılaştırmalar, yeni yöntemin konu bütünlüğünü daha iyi koruduğunu, kenarlarda garip artefaktlardan kaçındığını ve gevşek İzlenimci fırça işçiliği veya cesur soyut renk alanları gibi belirgin özellikleri yakaladığını gösterdi.
Günlük yaratıcılık için anlamı
Uzman olmayanlar için ana sonuç, sistemin seçilmiş görsel stile bağlıymış hissi veren görüntüleri basit metin istemlerinden elde edebilmesi; bunu elle seçilmiş referans resimlere veya karmaşık model müdahalelerine ihtiyaç duymadan yapabilmesidir. Bir kullanıcı sahneyi birçok stilden birinde isteyebilir veya tokenları karıştırarak stiller arasında kaydırma yapabilir; sistem yazılı fikre ve seçilen görsel dile saygı gösteren görüntülerle yanıt verir. Açıkça söylemek gerekirse, her stili küçük, öğrenilebilir bir kod olarak depolamanın ve stil ile içerik arasında dikkatle dengelenmiş eğitim yapmanın, yapay zekâ destekli sanat araçlarını daha esnek, verimli ve sanatsal niyete daha sadık hale getirebileceğini gösteriyor.
Atıf: Cao, X. Cross-media style transfer in art: preserving artistic intent in diverse media using GANs. Sci Rep 16, 15585 (2026). https://doi.org/10.1038/s41598-026-42852-x
Anahtar kelimeler: sanatsal stil transferi, metinden görsele, stable diffusion, yaratıcı yapay zekâ, dijital sanat