字节跳动近日推出了UNO,这是一个强大的通用框架,能够从单一主体到多主体进行定制化演进。UNO不仅展示了出色的泛化能力,还能将多样化的任务统一在一个模型之下,为图像生成领域带来了新的突破。
- 项目主页:https://bytedance.github.io/UNO
- GitHub:https://github.com/bytedance/UNO
- 模型:https://huggingface.co/bytedance-research/UNO
- Demo:https://huggingface.co/spaces/bytedance-research/UNO-FLUX
- ComfyUI插件:https://github.com/jax-explorer/ComfyUI-UNO (需要27G显存才可以运行)

UNO的核心优势
UNO的核心优势在于其强大的泛化能力和多主体生成能力。尽管基于主体的生成在图像生成领域有着广泛的应用,但目前仍面临数据可扩展性和主体扩展性的挑战。UNO通过一个高度一致的数据合成管道和逐步训练框架,成功解决了这些问题。它利用扩散变换器的内在上下文生成能力,生成高一致性的多主体配对数据,并通过渐进式跨模态对齐和通用旋转位置嵌入(UnoPE)进一步提升性能。

主要功能
- 高一致性多主体图像生成:UNO能够生成与文本描述和参考图像高度一致的多主体图像,支持多种图像格式(如ISO和PKG),并提供虚拟游戏手柄和物理控制器的支持。
- 模型数据协同进化:通过合成数据生成框架,从单主体到多主体逐步生成高质量的训练数据,并通过迭代训练将文本到图像(T2I)模型逐步转化为多图像条件的主体到图像(S2I)模型。
- 通用旋转位置嵌入(UnoPE):通过调整位置索引,减少参考图像的空间结构对生成图像的影响,提高主体相似性,同时保持良好的文本可控性。
工作原理
UNO的工作原理基于两项关键改进:渐进式跨模态对齐和通用旋转位置嵌入(UnoPE)。
- 数据合成:
- 构建一个包含多种类别和场景的分类树,利用大型语言模型(LLM)生成多样化的主体实例和场景描述。
- 使用预训练的T2I模型(如FLUX.1)生成主体一致的图像对,并通过DINOv2和VLM进行质量过滤。
- 逐步训练:
- 单主体训练:使用单主体图像对训练T2I模型,使其具备主体到图像(S2I)的能力。
- 多主体训练:进一步使用多主体图像对训练模型,增强其在复杂场景下的表现。
- 通用旋转位置嵌入(UnoPE):
- 通过调整位置索引,减少参考图像的空间结构对生成图像的影响,使模型更专注于文本特征,提高主体相似性。

应用场景
UNO的应用场景非常广泛,以下是一些具体例子:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















