尽管扩散模型(Diffusion Models)在文本到图像生成方面展现了非凡的才能,但在生成高度美学图像方面仍存在不足。具体来说,生成图像与真实世界美学图像在更细粒度的维度(如色彩、光影、构图等)上仍存在差距。为了弥合这一差距,字节跳动公司和中国科学技术大学的研究人员提出了一种即插即用的美学适配器VMix,旨在提升生成图像的质量,特别是在视觉审美维度上,如颜色、光线、构图等方面。VMix通过将输入的文本提示分离成内容描述和审美描述,并在去噪过程中通过值混合交叉注意力集成审美条件,从而提升图像的美学表现,同时保持图像与文本的一致性。
例如,一个用户想要生成一张“一个金发女孩穿着白色连衣裙,手持红花”的图像。使用VMix,用户可以输入文本提示,并指定审美描述,如“自然光线”、“协调的颜色”和“合理的构图”。VMix将这些审美条件融入图像生成过程中,生成的图像不仅与文本描述相符,而且在审美维度上也更符合人类的偏好,如更自然的色彩和光线,以及更协调的构图。
VMix的核心思想
VMix的核心洞察是通过设计一种优越的条件控制方法,增强现有扩散模型的美学表现,同时保持图像与文本的对齐。具体方法包括:
- 初始化美学嵌入:将输入文本提示解耦为内容描述和美学描述。
- 值混合交叉注意力:将美学条件整合到去噪过程中,网络通过零初始化线性层连接。
主要特点
- 即插即用:VMix作为一个插件式适配器,可以灵活应用于社区模型,无需重新训练。
- 细粒度审美控制:通过分离内容和审美描述,VMix能够更精细地控制图像生成的审美维度。
工作原理
1. 初始化阶段
在初始化阶段,预定义的美学标签通过CLIP模型转换为[CLS]标记,从而获得美学嵌入(AesEmb)。这些标记只需在训练开始时处理一次。CLIP模型能够将文本描述映射到图像特征空间,确保美学描述与图像内容的一致性。
2. 训练阶段
在训练阶段,投影层首先将输入的美学描述 映射为与内容文本嵌入 相同标记维度的嵌入 。然后,文本嵌入 通过值混合交叉注意力机制整合到去噪网络中。值混合交叉注意力机制允许模型在去噪过程中动态地结合美学条件,从而生成更具美学价值的图像。
3. 推理阶段
在推理阶段,VMix从AesEmb中提取所有积极的美学嵌入形成美学输入,与内容输入一起输入模型进行去噪过程。这种设计使得VMix可以在不重新训练的情况下,灵活应用于各种社区模型,提升其视觉表现。
细粒度美学控制
VMix的一个重要特点是其能够实现细粒度的美学控制。通过调整美学嵌入,用户可以选择性地增强特定的美学维度,例如:
- 自然光影:增强图像中的光影效果,使其更接近真实世界的光照条件。
- 协调色彩:优化图像的色彩搭配,使其更加和谐统一。
- 合理构图:改进图像的构图,使其更具艺术感和视觉吸引力。
当仅使用单维度美学标签时,可以观察到图像质量在特定维度上有所提升。而当使用完整的积极美学标签时,图像的视觉表现整体优于基线模型。
实验验证
为了验证VMix的有效性,研究人员进行了大量实验。实验结果表明,VMix在多个评测指标上优于其他最先进的方法,并且与其他社区模块(如LoRA、ControlNet和IPAdapter)兼容,用于图像生成。这证明了VMix的灵活性和广泛适用性。
优势与应用
- 即插即用:VMix无需重新训练扩散模型,可以直接应用于现有的社区模型,提升其视觉表现。
- 细粒度控制:用户可以通过调整美学嵌入,灵活控制生成图像在不同美学维度上的表现。
- 跨视觉概念的通用性:VMix不仅适用于特定类型的图像生成任务,还可以在多种视觉概念之间保持良好的通用性。
- 与其他模块兼容:VMix可以与其他先进的图像生成模块(如LoRA、ControlNet和IPAdapter)结合使用,进一步提升生成图像的质量。
评论0