Clear Sky Science · ar

فصل المحتوى عن الأسلوب لتوليد صور متعددة الأساليب باستخدام بنية الانتشار الكامن

· العودة إلى الفهرس

لماذا تهم أساليب الصور الأذكى

من ملصقات الأفلام وفن الألعاب إلى فلاتر وسائل التواصل الاجتماعي، نتوقع بشكل متزايد أن تكون الصور ملفتة بصريًا ومخصصة بدرجة عالية. لكن خلف الكواليس، لا تزال العديد من أنظمة نقل الأسلوب تواجه مشكلات: قد تشوّه وجه الشخص، أو تزيّف شكل المباني، أو تتطلب معدات باهظة. يقدم هذا البحث نموذج ذكاء اصطناعي جديد يعد بأساليب فنية أغنى مع الحفاظ على الصورة الأصلية سليمة والعمل بكفاءة كافية للأجهزة اليومية.

Figure 1
الشكل 1.

فصل «ما هو» عن «كيف يبدو»

في صميم هذا العمل نموذج يسمى نموذج الانتشار الخفيف ثنائي الشرط للأسلوب (DCLSDM). الفكرة الأساسية هي التعامل مع جوهر الصورة — العناصر، وتخطيط المشهد، والمحتوى — كـ «قناة» واحدة، والمعالجة الفنية — الألوان، والأنسجة، وضربات الفرشاة — كـ «قناة» أخرى، والتحكم بهما بصورة منفصلة. بدلاً من السماح لشبكة واحدة بخلط هذين الجانبين معًا، يستخدم DCLSDM مسارين مخصصين: واحد للمحتوى وآخر للأسلوب. يركز مسار المحتوى على فهم الأشكال والمعاني في الصورة المدخلة أو وصف نصي، بينما يركز مسار الأسلوب على تعلم الطابع البصري للعمل الفني المختار أو وصف الأسلوب.

كيف بُني النموذج الجديد

يبني DCLSDM على نماذج الانتشار، وهي نفس عائلة التقنيات وراء العديد من مولدات الصور الحديثة. وبدلاً من العمل مباشرة على صور بدقة كاملة، يعمل في فضاء «كامن» مضغوط، وهو أكثر كفاءة بكثير. وحدة تسمى Perceiver IO تستخرج المحتوى: تستقبل صورة أو تسمية وتلخّص هندسة المشهد ودلالاته في تمثيل مضغوط. وحدة أسلوب منفصلة تقرأ صورة أو عدة صور للأسلوب أو نصوصًا وتحولها إلى متجهات ميزات الأسلوب. يمكن مزج هذه الميزات الأسلوبية عبر مخطط استيفاء مرجّح، مما يسمح بانتقالات سلسة بين، على سبيل المثال، المظهر الانطباعي والمظهر البسيط دون المتوسط «الطيني» المعتاد.

الحفاظ على البنية أثناء تغيير الأسلوب

داخل شبكة الانتشار التي تولّد الصورة فعليًا، تُحقَن نوعا المعلومات عبر مسارات مستقلة. توجه إشارات المحتوى طبقات الشبكة التي تهتم بالبنية — أين يجب أن تكون الحواف والعناصر والتخطيطات. تُحقَن إشارات الأسلوب عبر طبقات انتباه مخصصة تشكّل بشكل رئيسي الأنماط والألوان وضربات الفرشاة. بالإضافة إلى ذلك، تضيف مكوّنة اسمها ControlNet إرشادًا بنيويًا إضافيًا باستخدام خرائط الحواف أو العمق المستخرجة من المحتوى الأصلي. تعني هذه التركيبة أن النظام يمكنه إعادة طلاء منظر صيفي بألوان شتوية، أو تحويل صورة فوتوغرافية إلى لوحة تشبه فان جوخ، مع الحفاظ على الجبال والأشجار والمباني في المكان الصحيح وخالية من التشوه.

Figure 2
الشكل 2.

جودة أفضل، المزيد من الأساليب، حساب أقل

اختبر المؤلفون DCLSDM بدقة على مجموعتي بيانات عامتين: WikiArt، التي تغطي عدة حركات فنية، وSummer2Winter Yosemite، التي تركز على التغيرات الموسمية في منظر طبيعي. قارنوا نموذجهم مع مجموعة من الأنظمة المتقدمة المستخدمة في البحث والصناعة. عبر مقاييس التشابه البنيوي، والجودة البصرية المدركة، ومدى تشابه الصور المولدة مع الأعمال الفنية الحقيقية، سجّل DCLSDM أعلى النتائج باستمرار. كما يعمل أسرع، ويستخدم ذاكرة أقل، ويمتلك عددًا أقل من المعاملات مقارنة بالعديد من المنافسين، ومع ذلك يقدم مزجًا مرنًا لأساليب متعددة ويدعم كلًا من مدخلات الأسلوب القائمة على الصور والنص.

ما يعنيه هذا للإبداع اليومي

من الناحية العملية، يظهر هذا العمل أنه من الممكن إعطاء المستخدمين سيطرة دقيقة على مظهر الصورة دون التضحية بما تعرضه — وأن يتم ذلك على أجهزة متواضعة أكثر. يمكن للمصممين استكشاف معالجات فنية متعددة بنفس التخطيط بسرعة، ويمكن لتطبيقات الهاتف المحمول تقديم فلاتر أغنى لا تشوه الوجوه أو المشاهد، ويمكن لمشاريع التراث الثقافي إعادة تلوين الصور القديمة مع الحفاظ على التفاصيل البنائية الضرورية. بفصل المحتوى عن الأسلوب داخل إطار انتشاري حديث، يشير DCLSDM إلى مستقبل تكون فيه أدوات الصور الإبداعية أقوى وأكثر موثوقية للاستخدام اليومي.

الاستشهاد: Chu, K., Shang, Y., Zhang, L. et al. Content style decoupling for multi style image generation using latent diffusion architecture. Sci Rep 16, 6642 (2026). https://doi.org/10.1038/s41598-026-36407-3

الكلمات المفتاحية: نقل أسلوب الصورة, نماذج الانتشار, فصل المحتوى والأسلوب, توليد الفن الرقمي, توليد صور فعال