扩散模型(Diffusion Models)在生成高质量图像方面表现出色,但其生成过程的黑箱性质限制了用户的控制能力。为了增强扩散模型的可控性和可解释性,来自美国东北大学和 Adobe Research的研究人员提出了一种名为 SliderSpace 的框架,旨在自动分解扩散模型(diffusion models)的视觉能力,将其转化为可控制且易于理解的方向(directions)。这些方向以“滑块”(sliders)的形式呈现,用户可以通过调节滑块来探索和组合模型的创意可能性。
- 项目主页:https://sliderspace.baulab.info
- GitHub:https://github.com/rohitgandikota/sliderspace
- 模型:https://sliderspace.baulab.info/sliderspace_weights
- Demo:https://huggingface.co/spaces/baulab/SliderSpace
例如,当输入提示词“玩具”(Toy)时,SliderSpace 能够识别出与该概念相关的主方向(如几何形状、材质、风格等),并将这些方向作为可调节的滑块呈现给用户。用户可以通过调整这些滑块,控制生成图像的特定属性(如从几何风格变为外星风格),从而实现对图像生成过程的精细控制。

主要功能
- 概念分解(Concept Decomposition):将高级概念(如“怪物”或“汽车”)分解为多个语义方向,揭示模型对这些概念的理解和可能的视觉变化。
- 艺术风格探索(Artistic Style Exploration):自动发现扩散模型所学到的艺术风格,生成多样化的艺术作品,甚至超过手动策划的艺术家列表。
- 多样性增强(Diversity Enhancement):通过发现和探索模型的视觉结构,解决蒸馏扩散模型(distilled diffusion models)中的模式坍塌(mode collapse)问题,恢复多样性。
主要特点
- 无需监督(Unsupervised Discovery):不需要用户提前指定属性或外部监督,直接从模型的内在结构中发现方向。
- 语义正交性(Semantic Orthogonality):每个发现的方向在语义特征空间(如 CLIP)中是正交的,避免了重复或相似的语义效果。
- 分布一致性(Distribution Consistency):方向在不同的随机种子和提示词变化下保持一致的变换效果。
- 低秩适配器(Low-Rank Adaptors):使用低秩适配器实现高效的参数更新,减少了计算和内存开销。
工作原理
- 分布采样(Distribution Sampling):从扩散模型中生成大量样例图像,并提取每个时间步的估计最终图像。
- 语义分解(Semantic Decomposition):将图像映射到语义嵌入空间(如 CLIP),并对嵌入向量进行主成分分析(PCA),提取主要变化方向。
- 滑块训练(Slider Training):为每个主成分方向训练一个低秩适配器,使其在语义空间中与主成分对齐。通过余弦相似度损失函数确保滑块的方向与主成分一致。

具体应用
1. 概念分解
SliderSpace 可以揭示扩散模型对某一概念的理解方式。例如:
- 对于“怪物”这一概念,SliderSpace 发现了生物解剖结构、环境背景和艺术诠释等多个维度。
- 研究表明,使用 SliderSpace 控制生成的图像多样性比基本模型高出 40%。
2. 探索艺术知识
SliderSpace 能够自动绘制扩散模型对艺术风格的理解,而无需依赖艺术家姓名或风格描述。例如:
- 在分析“以著名艺术家风格创作的艺术品”时,SliderSpace 发现了独特的艺术方向。
- 这些自动发现的控制与手动策划的艺术家列表(耗时数月完成)具有相当的多样性。
3. 提高模型多样性
研究人员在 SDXL-DMD(一种快速的 4 步蒸馏模型)上测试了 SliderSpace 的效果。实验表明:
- SliderSpace 将多样性得分(FID)从 15.52 提高到 12.12,接近原始模型的得分 11.72。
- 这一改进适用于多种扩散架构,包括 SDXL、SDXL-Turbo 和 FLUX Schnell。
用户研究结果
研究人员通过用户研究验证了 SliderSpace 的有效性:
- 72% 的参与者认为 SliderSpace 的风格控制比传统方法更有用。
- 用户普遍反馈,SliderSpace 提供的滑块界面简单易用,显著提升了生成图像的多样性和质量。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...