字节跳动推出基于Flux的通用框架UNO:支持虚拟试穿、风格化生成、产品设计等功能

字节跳动近日推出了UNO,这是一个强大的通用框架,能够从单一主体到多主体进行定制化演进。UNO不仅展示了出色的泛化能力,还能将多样化的任务统一在一个模型之下,为图像生成领域带来了新的突破。

字节跳动推出基于Flux的通用框架UNO:支持虚拟试穿、风格化生成、产品设计等功能

UNO的核心优势

UNO的核心优势在于其强大的泛化能力多主体生成能力。尽管基于主体的生成在图像生成领域有着广泛的应用,但目前仍面临数据可扩展性和主体扩展性的挑战。UNO通过一个高度一致的数据合成管道和逐步训练框架,成功解决了这些问题。它利用扩散变换器的内在上下文生成能力,生成高一致性的多主体配对数据,并通过渐进式跨模态对齐和通用旋转位置嵌入(UnoPE)进一步提升性能。

字节跳动推出基于Flux的通用框架UNO:支持虚拟试穿、风格化生成、产品设计等功能

主要功能

  • 高一致性多主体图像生成:UNO能够生成与文本描述和参考图像高度一致的多主体图像,支持多种图像格式(如ISO和PKG),并提供虚拟游戏手柄和物理控制器的支持。
  • 模型数据协同进化:通过合成数据生成框架,从单主体到多主体逐步生成高质量的训练数据,并通过迭代训练将文本到图像(T2I)模型逐步转化为多图像条件的主体到图像(S2I)模型。
  • 通用旋转位置嵌入(UnoPE):通过调整位置索引,减少参考图像的空间结构对生成图像的影响,提高主体相似性,同时保持良好的文本可控性。

工作原理

UNO的工作原理基于两项关键改进:渐进式跨模态对齐通用旋转位置嵌入(UnoPE)

  1. 数据合成
    • 构建一个包含多种类别和场景的分类树,利用大型语言模型(LLM)生成多样化的主体实例和场景描述。
    • 使用预训练的T2I模型(如FLUX.1)生成主体一致的图像对,并通过DINOv2和VLM进行质量过滤。
  2. 逐步训练
    • 单主体训练:使用单主体图像对训练T2I模型,使其具备主体到图像(S2I)的能力。
    • 多主体训练:进一步使用多主体图像对训练模型,增强其在复杂场景下的表现。
  3. 通用旋转位置嵌入(UnoPE)
    • 通过调整位置索引,减少参考图像的空间结构对生成图像的影响,使模型更专注于文本特征,提高主体相似性。
字节跳动推出基于Flux的通用框架UNO:支持虚拟试穿、风格化生成、产品设计等功能

应用场景

UNO的应用场景非常广泛,以下是一些具体例子:

  • 虚拟试穿:用户可以上传自己的照片,通过UNO模型生成试穿不同服装的效果图,无需实际试穿。
  • 身份保留:在生成图像时保留特定主体的身份特征,例如生成带有特定人物形象的虚拟场景。
  • 风格化生成:根据用户提供的文本描述,生成具有特定风格(如吉卜力风格、漫画风格)的图像。
  • 产品设计:生成带有特定品牌标志或文字的产品设计图,如带有品牌标志的T恤或杯子。
  • 故事生成:根据文本描述生成一系列连贯的图像,用于故事板或动画制作。
  • 多主体驱动生成:在同一场景中生成多个主体,例如生成包含多个角色的复杂场景图。
© 版权声明

相关文章

暂无评论

none
暂无评论...