Clear Sky Science · zh
使用潜在扩散架构实现多风格图像生成的内容—风格解耦
为什么更聪明的图像风格很重要
从电影海报和游戏美术到社交媒体滤镜,我们越来越期待图像既能引人注目又高度个性化。但在幕后,许多风格迁移系统仍然面临问题:它们可能会扭曲人物面容、把建筑变形,或需要高功耗硬件。本文提出了一种新的 AI 模型,承诺在保持原始图像完整性的同时提供更丰富的艺术风格,并且高效到足以在日常设备上运行。

将“是什么”与“看起来如何”分离
这项工作的核心是一种称为双条件轻量级风格扩散模型(DCLSDM)的模型。其关键思想是将图像的实质——物体、布局和场景——视为一条“通道”,而将艺术处理——颜色、纹理、笔触——视为另一条通道,并分别加以控制。DCLSDM 不再让单一网络将这两方面混在一起,而是使用两条专用路径:一条用于内容,一条用于风格。内容路径专注于理解输入图像或文本描述中的形状和含义,而风格路径则专注于学习所选艺术品或风格描述的视觉特征。
新模型的构建方式
DCLSDM 建立在扩散模型之上,即许多现代图像生成器使用的同一类技术。它不是直接在全分辨率图像上工作,而是在更高效的压缩“潜在”空间中运行。一个称为 Perceiver IO 的模块提取内容:它接收图像或标题,并将场景的几何与语义精炼为紧凑表示。一个独立的风格模块读取一张或多张风格图像或文本,并将其转换为风格特征向量。这些风格特征可以通过加权插值方案混合,使得在比如印象派与极简风之间实现平滑过渡,而不会出现通常的“混浊”平均效果。
在改变风格的同时保持结构
在实际生成图像的扩散网络内部,这两类信息通过独立通道注入。内容信号引导关注结构的网络层——决定边缘、物体和布局应位于何处。风格信号则通过专用的注意力层注入,主要塑造纹理、颜色和笔触。在此之上,一个名为 ControlNet 的组件使用从原始内容提取的边缘或深度图提供额外的结构引导。该组合意味着系统可以将夏季景观以冬季色调重绘,或将照片渲染成类似梵高的画作,同时仍然保持山脉、树木和建筑在正确位置且不失真。

更高质量、更多风格、更少计算量
作者在两个公开数据集上对 DCLSDM 进行了严格测试:涵盖众多艺术流派的 WikiArt,以及聚焦景观季节变化的 Summer2Winter Yosemite。他们将模型与一系列研究和工业中使用的最先进系统进行了比较。在结构相似性、感知视觉质量以及生成图像与真实艺术作品相似度的度量上,DCLSDM 均持续取得最高分。它还运行更快、占用更少内存、参数更少,同时仍提供灵活的多风格混合,并支持基于图像和基于文本的风格输入。
这对日常创作意味着什么
在实践层面,这项工作表明可以在不牺牲图像所表达内容的前提下,给予用户对图像外观的细粒度控制——并且能在较为有限的硬件上实现。设计师可以快速探索同一布局的多种艺术处理,移动应用可以提供不会变形面部或场景的更丰富滤镜,文化遗产项目可以在保留关键结构细节的同时为老照片重新定风格。通过在现代扩散框架内清晰地将内容与风格分离,DCLSDM 指向了一个创意图像工具既更强大又更可靠的未来。
引用: Chu, K., Shang, Y., Zhang, L. et al. Content style decoupling for multi style image generation using latent diffusion architecture. Sci Rep 16, 6642 (2026). https://doi.org/10.1038/s41598-026-36407-3
关键词: 图像风格迁移, 扩散模型, 内容-风格解耦, 数字艺术生成, 高效图像生成