SliderSpace:自动分解文生图模型的视觉能力,将其转化为简单的滑块控件,使用户能够更直观地控制生成结果

图像模型16小时前发布 小马良
3 0

扩散模型(Diffusion Models)在生成高质量图像方面表现出色,但其生成过程的黑箱性质限制了用户的控制能力。为了增强扩散模型的可控性和可解释性,来自美国东北大学Adobe Research的研究人员提出了一种名为 SliderSpace 的框架,旨在自动分解扩散模型(diffusion models)的视觉能力,将其转化为可控制且易于理解的方向(directions)。这些方向以“滑块”(sliders)的形式呈现,用户可以通过调节滑块来探索和组合模型的创意可能性。

  • 项目主页:https://sliderspace.baulab.info
  • GitHub:https://github.com/rohitgandikota/sliderspace
  • 模型:https://sliderspace.baulab.info/sliderspace_weights
  • Demo:https://huggingface.co/spaces/baulab/SliderSpace

例如,当输入提示词“玩具”(Toy)时,SliderSpace 能够识别出与该概念相关的主方向(如几何形状、材质、风格等),并将这些方向作为可调节的滑块呈现给用户。用户可以通过调整这些滑块,控制生成图像的特定属性(如从几何风格变为外星风格),从而实现对图像生成过程的精细控制。

SliderSpace:自动分解文生图模型的视觉能力,将其转化为简单的滑块控件,使用户能够更直观地控制生成结果

主要功能

  1. 概念分解(Concept Decomposition):将高级概念(如“怪物”或“汽车”)分解为多个语义方向,揭示模型对这些概念的理解和可能的视觉变化。
  2. 艺术风格探索(Artistic Style Exploration):自动发现扩散模型所学到的艺术风格,生成多样化的艺术作品,甚至超过手动策划的艺术家列表。
  3. 多样性增强(Diversity Enhancement):通过发现和探索模型的视觉结构,解决蒸馏扩散模型(distilled diffusion models)中的模式坍塌(mode collapse)问题,恢复多样性。

主要特点

  1. 无需监督(Unsupervised Discovery):不需要用户提前指定属性或外部监督,直接从模型的内在结构中发现方向。
  2. 语义正交性(Semantic Orthogonality):每个发现的方向在语义特征空间(如 CLIP)中是正交的,避免了重复或相似的语义效果。
  3. 分布一致性(Distribution Consistency):方向在不同的随机种子和提示词变化下保持一致的变换效果。
  4. 低秩适配器(Low-Rank Adaptors):使用低秩适配器实现高效的参数更新,减少了计算和内存开销。

工作原理

  1. 分布采样(Distribution Sampling):从扩散模型中生成大量样例图像,并提取每个时间步的估计最终图像。
  2. 语义分解(Semantic Decomposition):将图像映射到语义嵌入空间(如 CLIP),并对嵌入向量进行主成分分析(PCA),提取主要变化方向。
  3. 滑块训练(Slider Training):为每个主成分方向训练一个低秩适配器,使其在语义空间中与主成分对齐。通过余弦相似度损失函数确保滑块的方向与主成分一致。
SliderSpace:自动分解文生图模型的视觉能力,将其转化为简单的滑块控件,使用户能够更直观地控制生成结果

具体应用

1. 概念分解

SliderSpace 可以揭示扩散模型对某一概念的理解方式。例如:

  • 对于“怪物”这一概念,SliderSpace 发现了生物解剖结构、环境背景和艺术诠释等多个维度。
  • 研究表明,使用 SliderSpace 控制生成的图像多样性比基本模型高出 40%

2. 探索艺术知识

SliderSpace 能够自动绘制扩散模型对艺术风格的理解,而无需依赖艺术家姓名或风格描述。例如:

  • 在分析“以著名艺术家风格创作的艺术品”时,SliderSpace 发现了独特的艺术方向。
  • 这些自动发现的控制与手动策划的艺术家列表(耗时数月完成)具有相当的多样性。

3. 提高模型多样性

研究人员在 SDXL-DMD(一种快速的 4 步蒸馏模型)上测试了 SliderSpace 的效果。实验表明:

  • SliderSpace 将多样性得分(FID)从 15.52 提高到 12.12,接近原始模型的得分 11.72
  • 这一改进适用于多种扩散架构,包括 SDXL、SDXL-Turbo 和 FLUX Schnell。

用户研究结果

研究人员通过用户研究验证了 SliderSpace 的有效性:

  • 72% 的参与者认为 SliderSpace 的风格控制比传统方法更有用。
  • 用户普遍反馈,SliderSpace 提供的滑块界面简单易用,显著提升了生成图像的多样性和质量。
© 版权声明

相关文章

暂无评论

none
暂无评论...