Clear Sky Science · tr

Gizli dağılım mimarisi kullanarak çoklu stil görüntü üretimi için içerik-stil ayrımı

2026-01-29 · Dizine geri dön

Daha akıllı görüntü stillerinin önemi

Film afişlerinden oyun sanatına, sosyal medya filtrelerinden kişiselleştirilmiş görsellere kadar, görüntülerin hem çarpıcı hem de yüksek derecede kişisel olmasını bekliyoruz. Ancak perde arkasında birçok stil transfer sistemi hâlâ zorlanıyor: bir kişinin yüzünü bozabiliyor, binaları biçimsizleştirebiliyor veya ağır donanım gerektirebiliyorlar. Bu makale, özgün resmi korurken daha zengin sanatsal stiller vaat eden ve günlük cihazlarda çalışabilecek kadar verimli yeni bir yapay zeka modeli tanıtıyor.

"Neymiş" ile "Nasıl görünüyor"u ayırmak

Bu çalışmanın merkezinde İkili Koşullandırmalı Hafif Stil Difüzyon Modeli (DCLSDM) adlı bir model bulunuyor. Temel fikir, bir görüntünün özünü—nesneler, yerleşim ve sahne—bir “kanal” olarak, sanatsal işlenişini—renkler, dokular, fırça izleri—başka bir “kanal” olarak ele almak ve bunları ayrı ayrı kontrol etmektir. Tek bir ağın bu iki yönü birbirine karıştırmasına izin vermek yerine, DCLSDM içerik için bir, stil için ayrı iki adrese sahip. İçerik yolu, bir giriş görüntüsündeki veya metin açıklamasındaki şekilleri ve anlamları anlamaya odaklanırken; stil yolu, seçilen bir eserin veya stil açıklamasının görsel karakterini öğrenmeye odaklanır.

Yeni modelin nasıl inşa edildiği

DCLSDM, birçok modern görüntü üretecinin arkasındaki tekil aile olan difüzyon modelleri üzerine kuruludur. Tam çözünürlüklü görüntüler üzerinde doğrudan çalışmak yerine, çok daha verimli olan sıkıştırılmış bir “latent” uzayda çalışır. Perceiver IO adındaki bir modül içerikleri çıkarır: bir görüntü veya başlık alır ve sahnenin geometrisini ve anlamsal bilgisini kompakt bir temsile dönüştürür. Ayrı bir stil modülü bir veya daha fazla stil görüntüsünü ya da metinleri okuyarak bunları stil özellik vektörlerine çevirir. Bu stil özellikleri, ağırlıklı enterpolasyon ile harmanlanabilir; böylece örneğin empresyonist ile minimalist bir görünüm arasında olağan “bulanık” ortalama olmadan düzgün geçişler sağlanır.

Sturktürü korurken stili değiştirmek

Gerçekten görüntüyü oluşturan difüzyon ağının içinde, iki tür bilgi bağımsız yollar aracılığıyla enjekte edilir. İçerik sinyalleri kenarların, nesnelerin ve düzenin nereye gitmesi gerektiğiyle ilgilenen ağ katmanlarını yönlendirir. Stil sinyalleri ise dokuları, renkleri ve fırça işini biçimlendiren özel dikkat (attention) katmanları aracılığıyla girer. Bunun üzerine ControlNet adlı bir bileşen, orijinal içerikten çıkarılan kenar veya derinlik haritaları kullanarak ekstra yapısal rehberlik ekler. Bu kombinasyon, sistemin yaz manzarasını kış paletine boyamasına ya da bir fotoğrafı Van Gogh benzeri bir tablo olarak sunmasına olanak tanır; dağları, ağaçları ve binaları doğru yerde ve bozulmadan koruyarak.

Daha iyi kalite, daha çok stil, daha az hesaplama

Yazarlar DCLSDM’yi iki açık veri kümesinde titizlikle test ediyor: onlarca sanat akımını kapsayan WikiArt ve bir manzaradaki mevsim değişimlerine odaklanan Summer2Winter Yosemite. Modellerini hem araştırmada hem de endüstride kullanılan bir dizi en son teknoloji sistemle karşılaştırıyorlar. Yapısal benzerlik, algılanan görsel kalite ve üretilen görüntülerin gerçek eserlerle ne kadar örtüştüğü gibi ölçütlerde DCLSDM tutarlı şekilde en yüksek puanları alıyor. Ayrıca birçok rakibine göre daha hızlı çalışıyor, daha az bellek kullanıyor ve daha az parametreye sahip olmasına rağmen çoklu stillerin esnek karışımını sunuyor ve hem görüntü tabanlı hem de metin tabanlı stil girişini destekliyor.

Günlük yaratıcılık için anlamı

Uygulamada bu çalışma, kullanıcıya görüntünün ne gösterdiğinden ödün vermeden görüntünün nasıl göründüğüne ince ayar yapma olanağı sağlanabileceğini ve bunu daha mütevazı donanımlarda yapmanın mümkün olduğunu gösteriyor. Tasarımcılar aynı yerleşimin birçok sanatsal işlenişini hızla keşfedebilir, mobil uygulamalar yüzleri veya sahneleri bozmayacak daha zengin filtreler sunabilir ve kültürel miras projeleri eski fotoğrafları hayati yapısal detayları koruyarak yeniden stilize edebilir. Modern bir difüzyon çerçevesi içinde içeriği stilden temiz biçimde ayırarak, DCLSDM günlük kullanım için hem daha güçlü hem de daha güvenilir yaratıcı görüntü araçlarına doğru bir gelecek işaret ediyor.

Atıf: Chu, K., Shang, Y., Zhang, L. et al. Content style decoupling for multi style image generation using latent diffusion architecture. Sci Rep 16, 6642 (2026). https://doi.org/10.1038/s41598-026-36407-3

Anahtar kelimeler: görüntü stil transferi, difüzyon modelleri, içerik-stil ayrımı, dijital sanat üretimi, verimli görüntü üretimi