字节跳动推出新型框架 InfiniteYou (InfU),用于在保留个人身份特征的前提下,通过自由形式的文本描述重新创作照片。该框架利用先进的扩散变换器(Diffusion Transformers,简称 DiTs)技术,解决了现有方法在身份相似性、文本与图像对齐、图像质量和美学方面的不足。
- 项目主页:https://bytedance.github.io/InfiniteYou
- GitHub:https://github.com/bytedance/InfiniteYou
- 模型:https://huggingface.co/ByteDance/InfiniteYou
- Demo:https://huggingface.co/spaces/ByteDance/InfiniteYou-FLUX
InfiniteYou (InfU) 是一种用于身份保留图像生成的框架。它允许用户通过文本描述重新创作特定人物的照片,同时保留面部身份特征。例如,用户可以上传一张朋友的照片,并输入“我的朋友在海边冲浪”的描述,InfU 将生成一张保留朋友面部特征的冲浪场景图像。

如何使用这个Demo:
- 上传一张包含人脸的身份(ID)图像。对于有多张人脸的图像,只会检测到最大的人脸。理想情况下,人脸应该清晰且足够大,不存在明显的遮挡或模糊。
- 输入文本提示来描述生成的图像,并选择模型版本。请在生成的图像字段下查看重要的使用技巧。
- [可选]上传一张包含人脸的控制图像。只会提取五个面部关键点来控制生成。如果未提供,我们将使用一张黑色控制图像,表示没有控制。
- [可选]调整高级超参数或应用可选的LoRAs以满足个人需求。请查看生成图像字段下的重要使用技巧。
- 点击"生成"按钮来生成图像。
重要使用技巧:
- 模型版本:默认使用 aes_stage2,以获得更好的文本-图像对齐和美学效果。如果需要更高的 ID 相似度,请尝试 sim_stage1。
- 有用的超参数:通常不需要过多调整。如果有必要,可以尝试稍微增大 --infusenet_guidance_start(例如,0.1)(这对 sim_stage1 特别有用)。如果仍然不满意,那么可以尝试稍微减小 --infusenet_conditioning_scale(例如,0.9)。
- 可选的LoRAs:现实主义和抗模糊。若要启用它们,请勾选相应的复选框。它们是可选的,在我们的论文中并未使用。
- 性别提示:如果生成的性别不是你想要的,可以在文本提示中添加特定的词语,比如"一个男人"、"一个女人"等。我们鼓励使用包容性和尊重性的语言。
Model Zoo
InfiniteYou 版本 | 模型版本 | 基础模型 | 描述 |
---|---|---|---|
InfiniteYou-FLUX v1.0 | aes_stage2 | FLUX.1-dev | SFT之后的第二阶段模型,改善了文本文和图像的对齐和美观度 |
InfiniteYou-FLUX v1.0 | sim_stage1 | FLUX.1-dev | SFT之前的第一阶段模型,身份相似度更高 |
主要功能
- 身份保留:生成的图像保留原始人物的面部身份特征。
- 文本驱动的图像生成:用户可以通过自然语言描述来指定生成图像的内容和风格。
- 高质量图像生成:生成的图像具有高分辨率和良好的美学效果。
- 插件兼容性:支持与多种现有的扩散模型插件(如 ControlNet、LoRA 等)结合使用,提供更丰富的功能。
主要特点
- 高效的 DiT 基础模型:利用最新的扩散变换器(如 FLUX)作为基础模型,提供高质量的图像生成能力。
- InfuseNet 模块:通过残差连接将身份特征注入基础模型,增强身份相似性,同时最小化对生成能力的影响。
- 多阶段训练策略:包括预训练和监督微调(SFT),使用合成的单人多样本(SPMS)数据提升文本与图像对齐、图像质量和美学效果。
- 插件式设计:便于与其他方法或插件集成,具有良好的兼容性。
工作原理
- 身份特征注入:InfU 通过 InfuseNet 模块将身份特征注入扩散模型。InfuseNet 将身份特征通过残差连接注入到扩散模型的各个块中,避免了直接修改注意力层可能带来的副作用。
- 多阶段训练:
- 第一阶段:使用真实的人像数据进行预训练,学习身份保留和图像重建。
- 第二阶段:利用合成的单人多样本(SPMS)数据进行监督微调,提升文本与图像对齐、图像质量和美学效果。
- 生成过程:用户输入身份图像和文本描述后,模型通过扩散过程生成符合描述且保留身份特征的图像。
应用场景
- 个性化图像生成:用户可以根据自己的需求生成特定人物在不同场景下的图像,例如为社交媒体创建个性化头像或虚拟形象。
- 影视制作:在影视后期制作中,快速生成特定演员在不同场景下的镜头,减少实景拍摄的成本和时间。
- 游戏开发:为游戏角色生成符合特定身份特征的外观,提升游戏的个性化体验。
- 广告与营销:根据目标受众的特征生成个性化的广告图像,提高广告的吸引力和相关性。
- 虚拟现实与增强现实:为虚拟现实和增强现实应用生成符合用户身份特征的虚拟形象,提升沉浸感。
总结
InfiniteYou (InfU) 提供了一种高效且灵活的身份保留图像生成解决方案,通过先进的技术设计和多阶段训练策略,显著提升了生成图像的质量和美学效果。其插件式设计使其能够轻松集成到现有的工作流程中,为各种应用场景提供了强大的支持。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...