基于FLUX模型的图像定制框架DreamO：支持多种图像定制任务，同时实现多种条件（如身份、主体、风格、背景等）的无缝集成

361 0

字节跳动和北京大学深圳研究生院的研究人员推出一个基于DiT模型的图像定制框架DreamO ，旨在支持多种图像定制任务，同时实现多种条件（如身份、主体、风格、背景等）的无缝集成。它通过引入特征路由约束和占位符策略，确保生成结果与参考图像在特定属性上保持一致，同时允许灵活控制生成内容的放置位置。

项目主页：https://mc-e.github.io/project/DreamO
GitHub：https://github.com/bytedance/DreamO
模型：https://huggingface.co/ByteDance/DreamO
Demo：https://huggingface.co/spaces/ByteDance/DreamO
ComfyUI插件：https://github.com/jax-explorer/ComfyUI-DreamO（需要40G显存）

例如，你想生成一张图像，内容是一个穿着特定服装的人在特定场景中。使用 DreamO，你可以提供一张参考图像（如某个人的面部特写）和一个描述（如“在森林中，一个穿着黄色帽子和太阳镜的男人”）。DreamO 能够将参考图像的特征（如面部特征）与描述中的场景和服装信息结合起来，生成一张符合要求的图像。

主要功能

多条件图像定制：支持多种条件的组合，如身份（identity）、主体（subject）、风格（style）和背景（background）。
灵活的条件放置控制：通过占位符策略，用户可以指定条件在生成图像中的具体位置。
高质量生成：通过特征路由约束和逐步训练策略，确保生成图像的质量和一致性。
统一框架：在一个模型中实现多种图像定制任务，无需为每个任务单独训练模型。

主要特点

特征路由约束：通过约束条件图像与生成结果之间的交叉注意力，确保生成结果与参考图像在特定区域的一致性。
占位符策略：通过在文本描述中添加占位符（如 [ref#1]），建立文本描述与条件图像之间的对应关系，控制条件在生成图像中的位置。
逐步训练策略：通过分阶段训练（初始阶段、全面训练阶段、质量对齐阶段），逐步提升模型的定制能力和生成质量。
轻量级设计：基于预训练的 DiT 模型，仅通过少量额外参数（如 LoRA 模块）实现定制能力，降低了训练成本。

工作原理

预训练扩散变换器（DiT）：DreamO 基于预训练的 DiT 模型，将图像和文本输入统一处理为序列，通过扩散过程生成高质量图像。
特征路由约束：在训练过程中，通过最小化条件图像与生成结果之间的交叉注意力差异，确保生成结果与参考图像在特定区域的一致性。
占位符策略：在文本描述中添加占位符（如 [ref#1]），并通过训练确保占位符与条件图像之间的正确关联，从而控制条件在生成图像中的位置。
逐步训练策略：
- 初始阶段：在简单的主体驱动数据上进行训练，快速建立一致性生成能力。
- 全面训练阶段：在所有任务数据上进行训练，提升模型的多任务能力。
- 质量对齐阶段：通过生成的高质量图像对模型进行微调，确保生成结果与预训练模型的质量一致。