Clear Sky Science · ru

Перенос стиля между медиа в искусстве: сохранение художественного замысла в разных носителях с помощью GAN

· Назад к списку

Почему важно обучать ИИ художественным стилям

Представьте, что вы просите ИИ нарисовать «закат над тихим озером» так, будто кисть по очереди вели Моне, Пикассо или поп-художник. Современные системы «текст в изображение» умеют следовать смыслу запроса, но часто испытывают сложности с тонкостями, которые делают каждый художественный стиль правдоподобным. В этой статье рассматривается новый подход, дающий ИИ более глубокое понимание стиля, чтобы он мог генерировать цифровое искусство, остающееся верным и письменной подсказке, и художественному направлению, которое оно должно отражать.

Figure 1. Как ИИ превращает текстовые подсказки в изображения в различных классических художественных стилях без использования эталонных картин.
Figure 1. Как ИИ превращает текстовые подсказки в изображения в различных классических художественных стилях без использования эталонных картин.

От слов и шума к картинкам

Современные генераторы изображений на основе диффузионных моделей начинают с случайного шума и постепенно вылепливают изображение, соответствующее короткому текстовому описанию. Они удивительно хорошо располагают объекты в нужных местах, но испытывают трудности с «тем, как» — текстурами, цветовыми решениями и мазками, которые определяют импрессионизм или кубизм. Ранее предложенные способы исправить это часто требовали множества примерных изображений для каждого стиля, масштабной донастройки больших моделей или сложных многоэтапных схем. Такие подходы могут быть мощными, но они медленные, дорогие и неудобные для повседневных художников или дизайнеров.

Обучение стилям как компактным «памятям»

Исследование предлагает более простую идею — динамические встраивания стиля. Вместо того чтобы дообучать всю модель для каждого нового стиля, система учит лишь один компактный числовой «токен» на стиль. Всего таких токенов 27, каждый соответствует стилю из коллекции WikiArt, включая импрессионизм, кубизм, реализм и поп-арт. При генерации изображения модель читает и текстовую подпись, и выбранный токен стиля, объединяя их в единый направляющий сигнал. Этот сигнал подсказывает модели не только что рисовать, но и как должно выглядеть изображение в плане цвета, текстуры и общей атмосферы. Поскольку стиль хранится в виде маленького вектора, новые стили можно добавлять или смешивать с минимальными дополнительными затратами.

Балансировка стиля, содержания и плавного смешивания

Для обучения системы авторы сначала использовали другой инструмент ИИ, чтобы сгенерировать подписи примерно для восьми тысяч картин, взятых из более обширной базы WikiArt. Затем они разработали рецепт обучения, который заставляет генератор одновременно решать три задачи. Потеря по стилю поощряет выходное изображение разделять паттерны и текстуры с эталонной картиной. Перцептуальная потеря побуждает сохранять основные формы и объекты, описанные в подписи. Потеря смешивания учит модель плавно переходить между двумя стилями при смешивании их токенов, чтобы, например, изображение могло постепенно смещаться от импрессионизма к поп-арту без резких разрывов. Всё это происходит внутри стандартной модели Stable Diffusion, без добавления дополнительных сетей или необходимости иметь примеры стиля во время генерации.

Figure 2. Как небольшой изучаемый код стиля управляет каждым шагом генерации изображения, чтобы соответствовать и смешивать живописные стили.
Figure 2. Как небольшой изучаемый код стиля управляет каждым шагом генерации изображения, чтобы соответствовать и смешивать живописные стили.

Насколько хорошо ИИ усваивает облик искусства

Исследователи оценивали свой метод разными способами. Они сравнивали сгенерированные изображения с реальными произведениями с помощью стандартной метрики, проверяющей, насколько схожи распределения сгенерированных изображений и оригинальной выборки. Их подход показал лучшие результаты по сравнению с нестандартной (нетонкой) базовой версией Stable Diffusion, что указывает на более близкое соответствие реальному искусству. Они также использовали модель взаимного зрения и языка, чтобы оценить, насколько изображение соответствует и подписи, и заявленному названию стиля, и достигли почти 90% точности при автоматической классификации стилей сгенерированных изображений. Визуальные сравнения с другими системами переноса стиля показали, что новый метод лучше сохраняет предмет изображения, избегает странных артефактов по краям и передаёт характерные черты, такие как свободная импрессионистская кисть или смелые абстрактные цветовые поля.

Что это значит для повседневного творчества

Для неспециалистов главный вывод в том, что система может превращать простые текстовые подсказки в изображения, которые убедительно связаны с конкретными художественными течениями, без необходимости вручную подбирать эталонные картины или проводить сложные операции с моделью. Пользователь может запросить сцену в одном из множества стилей или даже сгладить переход между стилями, смешав их токены, и система ответит изображениями, которые уважают и задуманную идею, и выбранный визуальный язык. Проще говоря, работа показывает, что хранение каждого стиля в виде небольшого обучаемого кода, аккуратно натренированного на баланс между стилем и содержанием, может сделать инструменты ИИ для искусства более гибкими, эффективными и верными художественному замыслу.

Цитирование: Cao, X. Cross-media style transfer in art: preserving artistic intent in diverse media using GANs. Sci Rep 16, 15585 (2026). https://doi.org/10.1038/s41598-026-42852-x

Ключевые слова: перенос художественного стиля, текст в изображение, stable diffusion, креативный ИИ, цифровое искусство