高通AI研究和MovianAI的研究人员推出新方法CSD-VAR,用于从单张图像中分离内容(content)和风格(style),即内容风格分解(Content-Style Decomposition, CSD)。这种方法基于视觉自回归模型(Visual Autoregressive Modeling, VAR),通过其多尺度生成过程,实现了更有效的内容与风格解耦。
例如,给定一张包含特定内容(如一只猫)和特定风格(如动漫风格)的图像,CSD-VAR可以将内容和风格分离,使得用户可以将猫的内容重新放置到其他环境中,或者将动漫风格应用到其他对象上。

主要功能
CSD-VAR的主要功能是将单张图像的内容和风格分离,从而实现以下两个关键应用:
- 内容重置(Recontextualization):将图像中的主体内容适应到不同的视觉环境中。
- 风格化(Stylization):将图像中的风格应用到新的主体上。
主要特点
- 尺度感知交替优化策略(Scale-aware Alternating Optimization Strategy):通过在不同尺度上交替优化内容和风格嵌入,增强内容与风格的分离。
- 基于SVD的风格嵌入校正(SVD-based Style Embedding Rectification):通过奇异值分解(SVD)去除风格嵌入中的内容信息,减少内容泄漏。
- 增强型键值(K-V)记忆(Augmented Key-Value Memory):通过增强型K-V记忆辅助存储内容和风格属性,提升内容身份的保持能力。
- CSD-100数据集:为内容风格分解任务设计的基准数据集,包含100张具有多样化内容和风格的图像。
工作原理
CSD-VAR的工作原理基于以下几个关键步骤:
- 尺度感知优化:分析VAR模型在不同尺度上捕获的细节,将尺度分为与风格相关(如小尺度和最终尺度)和与内容相关(如中间尺度)的两组。通过在这些尺度上交替优化内容和风格嵌入,提高解耦效果。
- SVD校正:使用SVD分解内容相关的子空间,并通过投影去除风格嵌入中的内容信息,确保风格嵌入与内容无关。
- 增强型K-V记忆:在自回归变换器的特定尺度前插入增强型K-V记忆,以补充文本嵌入无法捕获的复杂概念和风格信息。
测试结果
CSD-VAR在新提出的CSD-100数据集上进行了广泛的实验,结果表明:
- 在内容对齐(Content Alignment)和风格对齐(Style Alignment)方面,CSD-VAR显著优于现有的方法,如DreamBooth、B-LoRA和Inspiration Tree。
- 用户研究显示,CSD-VAR在内容和风格对齐方面获得了更高的用户偏好,尤其是在遵循文本提示(Prompt Adherence)方面表现出色。
应用场景
CSD-VAR的应用场景包括但不限于:
- 创意图像合成:艺术家可以利用CSD-VAR从单张图像中提取内容和风格,并将它们应用到新的创作中,实现跨领域的视觉转换。
- 个性化图像生成:根据用户提供的图像,生成符合用户特定需求的个性化图像,例如将用户的照片转换为动漫风格或油画风格。
- 内容重置:将图像中的主体内容重新放置到不同的环境中,例如将城市景观中的建筑放置到自然环境中。
- 风格迁移:将一种图像的风格应用到另一种图像的内容上,实现风格的迁移和融合。
通过CSD-VAR,用户可以在保持内容完整性的同时,灵活地应用不同的风格,为创意图像合成和个性化图像生成提供了强大的工具。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















