来自卡内基梅隆大学和东北大学的研究人员推出新定制方法Pair Customization,该方法从单一图像对中学习风格差异,并随后将习得的风格应用于生成过程中。这是一款使用一对图像(一个原始图像和一个风格化图像)来定制文本到图像的生成模型。简单来说,就是让机器学习如何模仿一种特定的艺术风格,并将其应用到新的图像上。
- 项目主页:https://paircustomization.github.io
- GitHub:https://github.com/PairCustomization/PairCustomization
开发人员用了一种联合优化方法,该方法明确地将风格和内容分离到不同的LoRA权重空间中。开发人员优化这些风格和内容权重,以重现内容图像和风格图像,同时鼓励它们的正交性。在推理阶段,开发人员通过基于所学权重的新风格引导方式,调整扩散过程。
例如,你有一张你非常喜欢的画作,它有着独特的风格,比如梵高的星夜风格。现在,你想用这种风格来创造一张新的照片,比如你的宠物狗的照片。Pair Customization就是关于如何教会机器“理解”这种风格,并将其应用到任何你想要风格化的照片上。
主要功能:
- 风格学习:模型能够从一对图像中学习特定的艺术风格。
- 风格应用:将学习到的风格应用到新的图像上,生成具有相同风格的新图像。
主要特点:
- 单图像对定制:与需要大量图像来学习风格的传统方法不同,这项技术只需要一对图像即可。
- 风格与内容分离:模型能够区分图像的风格和内容,避免在应用风格时丢失原始图像的细节。
- 正交化权重:通过数学方法确保风格和内容的权重是独立的,从而更好地分离风格和内容。
- 风格引导:在生成图像时,使用风格引导来控制风格应用的强度,同时保持原始图像的结构。
工作原理:
- 风格和内容的分离:通过训练,模型学会将风格和内容的权重分开处理,确保风格可以独立于内容存在。
- 联合优化:同时优化风格和内容的权重,使得模型能够重现风格和内容图像,同时鼓励它们之间的正交性。
- 风格引导的扩散过程:在生成图像时,通过新的风格引导方法来修改扩散过程,从而生成具有所需风格的图像。
- 正交适应:在训练过程中,强制风格和内容的LoRA(低秩适配器)权重的行空间正交,以提高风格和内容的分离度。
具体应用场景:
- 艺术创作:艺术家可以使用这种技术来模仿他们喜欢的艺术风格,创作新的艺术作品。
- 个性化图像生成:用户可以上传他们喜欢的风格图像和内容图像,生成具有特定风格的个性化照片。
- 教育和培训:在艺术教育中,这种技术可以帮助学生理解不同的艺术风格,并尝试模仿这些风格。
- 娱乐和社交媒体:用户可以在社交媒体上分享他们用喜欢的风格生成的图像,增加互动和乐趣。
- 设计和广告:设计师可以快速地将产品图片应用上不同的艺术风格,用于广告和营销材料的制作。
评论0