Clear Sky Science · zh

使用潜在扩散架构实现多风格图像生成的内容—风格解耦

2026-01-29 · 返回目录

为什么更聪明的图像风格很重要

从电影海报和游戏美术到社交媒体滤镜，我们越来越期待图像既能引人注目又高度个性化。但在幕后，许多风格迁移系统仍然面临问题：它们可能会扭曲人物面容、把建筑变形，或需要高功耗硬件。本文提出了一种新的 AI 模型，承诺在保持原始图像完整性的同时提供更丰富的艺术风格，并且高效到足以在日常设备上运行。

将“是什么”与“看起来如何”分离

这项工作的核心是一种称为双条件轻量级风格扩散模型（DCLSDM）的模型。其关键思想是将图像的实质——物体、布局和场景——视为一条“通道”，而将艺术处理——颜色、纹理、笔触——视为另一条通道，并分别加以控制。DCLSDM 不再让单一网络将这两方面混在一起，而是使用两条专用路径：一条用于内容，一条用于风格。内容路径专注于理解输入图像或文本描述中的形状和含义，而风格路径则专注于学习所选艺术品或风格描述的视觉特征。

新模型的构建方式

DCLSDM 建立在扩散模型之上，即许多现代图像生成器使用的同一类技术。它不是直接在全分辨率图像上工作，而是在更高效的压缩“潜在”空间中运行。一个称为 Perceiver IO 的模块提取内容：它接收图像或标题，并将场景的几何与语义精炼为紧凑表示。一个独立的风格模块读取一张或多张风格图像或文本，并将其转换为风格特征向量。这些风格特征可以通过加权插值方案混合，使得在比如印象派与极简风之间实现平滑过渡，而不会出现通常的“混浊”平均效果。

在改变风格的同时保持结构

在实际生成图像的扩散网络内部，这两类信息通过独立通道注入。内容信号引导关注结构的网络层——决定边缘、物体和布局应位于何处。风格信号则通过专用的注意力层注入，主要塑造纹理、颜色和笔触。在此之上，一个名为 ControlNet 的组件使用从原始内容提取的边缘或深度图提供额外的结构引导。该组合意味着系统可以将夏季景观以冬季色调重绘，或将照片渲染成类似梵高的画作，同时仍然保持山脉、树木和建筑在正确位置且不失真。

更高质量、更多风格、更少计算量

作者在两个公开数据集上对 DCLSDM 进行了严格测试：涵盖众多艺术流派的 WikiArt，以及聚焦景观季节变化的 Summer2Winter Yosemite。他们将模型与一系列研究和工业中使用的最先进系统进行了比较。在结构相似性、感知视觉质量以及生成图像与真实艺术作品相似度的度量上，DCLSDM 均持续取得最高分。它还运行更快、占用更少内存、参数更少，同时仍提供灵活的多风格混合，并支持基于图像和基于文本的风格输入。

这对日常创作意味着什么

在实践层面，这项工作表明可以在不牺牲图像所表达内容的前提下，给予用户对图像外观的细粒度控制——并且能在较为有限的硬件上实现。设计师可以快速探索同一布局的多种艺术处理，移动应用可以提供不会变形面部或场景的更丰富滤镜，文化遗产项目可以在保留关键结构细节的同时为老照片重新定风格。通过在现代扩散框架内清晰地将内容与风格分离，DCLSDM 指向了一个创意图像工具既更强大又更可靠的未来。

引用: Chu, K., Shang, Y., Zhang, L. et al. Content style decoupling for multi style image generation using latent diffusion architecture. Sci Rep 16, 6642 (2026). https://doi.org/10.1038/s41598-026-36407-3

关键词: 图像风格迁移, 扩散模型, 内容-风格解耦, 数字艺术生成, 高效图像生成