Clear Sky Science · he
העברת סגנון בין מדיות באמנות: שמירה על הכוונה האמנותית במדיות שונות באמצעות GANs
מדוע חשוב ללמד בינה מלאכותית על סגנונות אמנות
דמיינו שאתם מבקשים מבינה מלאכותית לצייר “שקיעה מעל אגם שקט” כאילו מונה, פיקאסו או אמן פופ התחלפו במברשת. מערכות טקסט‑לתמונה של היום מסוגלות לעקוב אחרי המילים של הבקשה, אך לעתים קרובות מתקשות בניואנסים שהופכים כל סגנון אמנותי לאותנטי. המאמר חוקר שיטה חדשה להעניק לבינה מלאכותית תחושת סגנון עשירה יותר, כך שתוכל ליצור אמנות דיגיטלית הנאמנה גם להנחיית הטקסט וגם לתנועה האמנותית שהיא אמורה להדהד.

ממילים ורעש לתמונות
גנרטורים מודרניים המבוססים על מודלי דיפוזיה מתחילים מרעש אקראי ומפסלים בהדרגה תמונה שתתאים לתיאור טקסט קצר. הם מצטיינים במיקום הנכונים של אובייקטים, אך מתקשים ב"איך" של הציור: המרקמים, בחירות הצבע והמשיכות במברשת שמגדירות אימפרסיוניזם או קוביזם. ניסיונות קודמים לתקן זאת התבססו לעיתים על הרבה תמונות דוגמה לכל סגנון, כוונון מקיף של מודלים גדולים או מערכות מורכבות מרובות שלבים. גישות אלה יכולות להיות עוצמתיות, אך הן איטיות, יקרות וקשות לשימוש עבור אמנים ומעצבים יום‑יומיים.
ללמד סגנונות כזיכרונות קומפקטיים
המחקר מציג רעיון פשוט יותר בשם הטמעות סגנון דינמיות. במקום לאמן מחדש את המודל כולו לכל סגנון חדש, המערכת לומדת רק "טוקן" מספרי קומפקטי אחד לכל סגנון. קיימים 27 טוקנים כאלה, כל אחד מתCorresponding to סגנון מקולקציית WikiArt, כולל אימפרסיוניזם, קוביזם, מציאותיות ואמנות פופ. כשהמודל יוצר תמונה, הוא קורא גם את הכיתוב וגם את טוקן הסגנון הנבחר וממזג אותם לאות מנחה יחידה. אות זו אומרת למודל לא רק מה לצייר, אלא גם איך התוצאה צריכה להיראות מבחינת צבע, מרקם ומצב רוח כללי. מאחר שהסגנון מאוחסן כוקטור קטן, ניתן להוסיף או לערבב סגנונות חדשים בעלות זעירה נוספת.
איזון בין סגנון, תוכן ומיזוג חלק
כדי לאמן את המערכת, המחברים השתמשו תחילה בכלי בינה מלאכותית אחר כדי לכתוב כיתובים לכ‑כ‑8,000 ציורים שנלקחו ממסד הנתונים הגדול יותר של WikiArt. לאחר מכן הם עיצבו מתכון אימון שמניע את הגנרטור לאזן בין שלושה יעדים במקביל. אובדן סגנון מעודד את הפלט לשתף דפוסים ומרקמים עם ציור ייחוס. אובדן תפיסתי דוחף את התוצאה לשמור על הצורות והאובייקטים העיקריים המתוארים בכיתוב. אובדן מיזוג מלמד את המודל להחליק באופן חלק בין שני סגנונות כאשר טוקנים שלהם מעורבבים, כך שתמונה יכולה לעבור בהדרגה, לדוגמה, מאימפרסיוניזם לאמנות פופ ללא קפיצות חזקות. כל זה מתרחש בתוך מודל Stable Diffusion סטנדרטי, ללא הוספת רשתות נוספות או צורך בתמונות דוגמה של סגנון בזמן ההפקה.

כמה טוב הבינה לומדת את מראה האמנות
החוקרים העריכו את השיטה בכמה אופנים. הם השוו את התמונות שלה עם יצירות אמנות אמיתיות באמצעות מדד סטנדרטי הבודק עד כמה התפלגות התמונות המיוצרות דומה לזו של מערך הנתונים המקורי. הגישה שלהם קיבלה ציון גבוה יותר מבסיס Stable Diffusion לא מכוונן, מה שמרמז על התאמה קרובה יותר לאמנות אמיתית. הם גם השתמשו במודל ראייה‑שפה כדי לבדוק עד כמה תמונה מתאימה הן לכיתוב והן לשם הסגנון המיועד, והגיעו לדיוק של כמעט 90% בסיווג אוטומטי של סגנונות בתמונות שנוצרו. השוואות ויזואליות עם מערכות אחרות להעברת סגנון הראו שהשיטה החדשה שומרת טוב יותר על נושא התמונה, נמנעת מארטיפקטים מוזרים לאורך הקצוות ולוכדת תכונות מייצגות כגון משיכות מברשת חופשיות של האימפרסיוניזם או שדות צבע מופשטים ובולטים.
מה המשמעות של זה ליצירתיות היומיומית
עבור לא‑מומחים, הממצא המרכזי הוא שהמערכת יכולה להפוך הנחיות טקסט פשוטות לתמונות שנראות משויכות באופן משכנע לתנועות אמנות ספציפיות, ללא צורך בתמונות ייחוס שנבחרו ידנית או בניתוח מורכב של המודל. משתמש יכול לבקש סצנה באחד ממגוון סגנונות, או אפילו להחליק בין סגנונות על‑ידי ערבוב הטוקנים שלהם, והמערכת תגיב בתמונות שמכבדות גם את הרעיון הכתוב וגם את השפה הוויזואלית הנבחרת. במילים פשוטות, העבודה מראיתה ששמירת כל סגנון כקוד קטן הניתן ללמידה, המאומן בקפידה לאזן בין סגנון ותוכן, יכולה להפוך כלי אמנות מונחי בינה מלאכותית ליותר גמישים, יעילים ונאמנים לכוונה האמנותית.
ציטוט: Cao, X. Cross-media style transfer in art: preserving artistic intent in diverse media using GANs. Sci Rep 16, 15585 (2026). https://doi.org/10.1038/s41598-026-42852-x
מילות מפתח: העברת סגנון אמנותית, טקסט לתמונה, Stable Diffusion, בינה יצירתית, אמנות דיגיטלית