Clear Sky Science · ar

نقل الأسلوب عبر وسائط متعددة في الفن: الحفاظ على النية الفنية عبر وسائط متنوعة باستخدام شبكات GAN

· العودة إلى الفهرس

لماذا تهمّ تعليمات الذكاء الاصطناعي بأنماط الفن

تخيّل أن تطلب من ذكاء اصطناعي أن يرسم «غروب شمس فوق بحيرة هادئة» كما لو أن مونيه أو بيكاسو أو فنان بوب آرت قد أمسك الفرشاة على التوالي. يمكن لأنظمة تحويل النص إلى صورة اليوم أن تتبع كلمات الطلب، لكنها غالباً ما تتعثّر عندما يتعلق الأمر بالدقائق التي تجعل كل أسلوب فني يبدو أصيلاً. تستكشف هذه الورقة نهجاً جديداً يمنح الذكاء الاصطناعي فهماً أغنى للأسلوب، بحيث يمكنه توليد فن رقمي يظل مخلصاً لكل من الوصف المكتوب والحركة الفنية التي يُراد محاكاتها.

Figure 1. كيف يحوّل الذكاء الاصطناعي تعليمات نصية إلى صور بعدة أساليب فنية كلاسيكية دون استخدام صور مرجعية.
Figure 1. كيف يحوّل الذكاء الاصطناعي تعليمات نصية إلى صور بعدة أساليب فنية كلاسيكية دون استخدام صور مرجعية.

من الكلمات والضوضاء إلى الصور

تبدأ مولدات الصور الحديثة المبنية على نماذج الانتشار من ضوضاء عشوائية ثم تنحت تدريجياً صورة تطابق وصفاً نصياً مختصراً. هي بارعة بشكل ملحوظ في وضع الأشياء في الأماكن الصحيحة، لكنها تواجه صعوبة في «كيف» الرسم: القوام، اختيارات الألوان، وضربات الفرشاة التي تميّز الانطباعية أو التكعيبية. اعتمدت محاولات سابقة لإصلاح هذا الأمر غالباً على العديد من صور الأمثلة لكل أسلوب، أو تعديل مكثف لنماذج كبيرة، أو أنظمة متعددة الخطوات معقدة. يمكن أن تكون هذه الطرق فعّالة، لكنها بطيئة ومكلفة وصعبة الاستخدام للفنانين أو المصممين العاديين.

تعليم الأنماط كذكريات مضغوطة

تقدّم الدراسة فكرة أبسط تُدعى التضمينات الأسلوبية الديناميكية. بدلاً من إعادة تدريب النموذج بأكمله لكل أسلوب جديد، يتعلّم النظام «رمزاً» رقميّاً مضغوطاً واحداً فقط لكل أسلوب. هناك 27 رمزاً من هذا القبيل، كل واحد يتوافق مع أسلوب من مجموعة WikiArt، بما في ذلك الانطباعية والتكعيبية والواقعية والبوب آرت. عندما يولّد النموذج صورة، يقرأ كلّاً من التسمية النصية ورمز الأسلوب المختار، ويدمجهما في إشارة إرشادية واحدة. تخبر هذه الإشارة النموذج ليس فقط بما يرسمه، بل وكيف يجب أن يظهر الناتج من حيث اللون والملمس والمزاج العام. وبما أن الأسلوب مخزّن كمتجه صغير، يمكن إضافة أساليب جديدة أو خلطها بتكلفة إضافية ضئيلة.

موازنة الأسلوب والمحتوى والخلط السلس

لتدريب هذا النظام، استخدم المؤلفون أولاً أداة ذكاء اصطناعي أخرى لكتابة تسميات لما يقرب من ثمانية آلاف لوحة مأخوذة من قاعدة بيانات WikiArt الأكبر بكثير. ثم صمّموا وصفة تدريب تدفع المولّد لتحقيق ثلاثة أهداف في آن واحد. تُشجّع خسارة الأسلوب المخرجات على مشاركة الأنماط والقوام مع لوحة مرجعية. تدفع خسارة إدراكية الناتج للحفاظ على الأشكال والكائنات الرئيسية الموضحة في التسمية. تعلّم خسارة الخلط النموذج كيفية الانزلاق بسلاسة بين أسلوبين عند مزج رموزهما، بحيث يمكن للصورة أن تتحول تدريجياً، على سبيل المثال، من انطباعية إلى بوب آرت دون انقطاعات مفاجئة. يحدث كل هذا داخل نموذج Stable Diffusion قياسي، دون إضافة شبكات إضافية أو الحاجة إلى صور أسلوبية كأمثلة عند وقت التوليد.

Figure 2. كيف يتحكّم رمز أسلوبي صغير مُتعَلَّم في كل خطوة من خطوات توليد الصورة لمطابقة ودمج أساليب الرسم.
Figure 2. كيف يتحكّم رمز أسلوبي صغير مُتعَلَّم في كل خطوة من خطوات توليد الصورة لمطابقة ودمج أساليب الرسم.

ما مدى تعلم الذكاء الاصطناعي لمظهر الفن

قيّم الباحثون طريقتهم بعدة وسائل. قارنوا صورها مع الأعمال الفنية الحقيقية باستخدام مقياس قياسي يتحقق من مدى تشابه توزيع الصور المولّدة ككل مع توزيع مجموعة البيانات الأصلية. سجّل نهجهم نتائج أفضل من نقطة انطلاق Stable Diffusion غير المُعدّلة، مما يوحي بمواءمة أقرب مع الفن الحقيقي. كما استخدموا نموذج رؤية–لغة ليروا مدى تطابق الصورة مع كل من تسميتها ونوع الأسلوب المقصود، وبلغت الدقة نحو 90% عند تصنيف أنماط الصور المولّدة تلقائياً. أظهرت المقارنات البصرية مع أنظمة نقل الأسلوب الأخرى أن الأسلوب الجديد حافظ بشكل أفضل على الموضوع، وتجنّب الشوائب الغريبة على الحواف، والتقط سمات مميزة مثل ضربات الفرشاة الانطباعية الفضفاضة أو حقول الألوان التجريدية الجريئة.

ما الذي يعنيه هذا للإبداع اليومي

بالنسبة لغير المتخصّصين، النتيجة الأساسية هي أن النظام يمكنه تحويل مطالبات نصية بسيطة إلى صور تبدو مرتبطة بشكل مقنع بحركات فنية محددة، دون الحاجة إلى صور مرجعية مُختارة يدوياً أو عمليات جراحية معقدة على النموذج. يمكن للمستخدم طلب مشهد بإحدى العديد من الأساليب، أو حتى التنقّل بين الأساليب عن طريق مزج رموزها، واستجابة النظام ستكون صوراً تحترم الفكرة المكتوبة واللغة البصرية المختارة. ببساطة، تُظهر الدراسة أن تخزين كل أسلوب كرمز صغير قابل للتعلّم وتدريبه بعناية لموازنة الأسلوب والمحتوى يمكن أن يجعل أدوات الفن المدعومة بالذكاء الاصطناعي أكثر مرونة وكفاءة ووفاءً للنية الفنية.

الاستشهاد: Cao, X. Cross-media style transfer in art: preserving artistic intent in diverse media using GANs. Sci Rep 16, 15585 (2026). https://doi.org/10.1038/s41598-026-42852-x

الكلمات المفتاحية: نقل الأسلوب الفني, من نص إلى صورة, Stable Diffusion, ذكاء اصطناعي إبداعي, فن رقمي