字节跳动 USO 模型 ComfyUI 原生工作流指南:实现风格与主体统一的 AI 生成

工作流3个月前发布 小马良
759 0

在 AI 图像生成中,两个核心挑战长期并存:

  • 主体一致性:如何让同一个角色在不同场景中保持身份不变?
  • 风格迁移:如何将参考图的艺术风格准确迁移到新内容上?

传统方案往往需要多个模型、复杂调参,或依赖 LoRA 微调。而现在,字节跳动 UXO 团队推出的 USO 模型(Unified Style-Subject Optimized),试图用一个模型统一解决这两个问题。

基于 FLUX.1-dev 架构,USO 通过解耦学习风格奖励学习(SRL),实现了对“主体”与“风格”的高效分离与协同控制。

字节跳动推出 USO:统一风格与主体生成模型,开源全方案赋能创作

本文将带你完整解析其在 ComfyUI 中的原生工作流使用方法,涵盖模型部署、参数设置与多模式应用。

字节跳动 USO 模型 ComfyUI 原生工作流指南:实现风格与主体统一的 AI 生成

什么是 USO?

USO(Unified Style-Subject Optimized) 是一种支持风格驱动主体驱动的统一生成模型,具备三种使用模式:

模式功能说明
主体驱动将指定主体(如人物、动物)置于新场景中,保持身份一致
风格驱动将参考图像的艺术风格应用于新内容(如将照片转为油画)
组合模式同时使用主体与风格参考,实现“换脸+换风格”一体化输出

✅ 基于 FLUX.1-dev 架构,支持高分辨率、细节保留
✅ 无需额外训练,开箱即用
✅ 支持多条件输入,灵活适配不同创作需求

📦 模型准备

必需模型文件

请下载以下模型并放置到对应目录:

模型类型文件名存放路径
Checkpointflux1-dev-fp8.safetensorsComfyUI/models/checkpoints/
LoRAuso-flux1-dit-lora-v1.safetensorsComfyUI/models/loras/
Model Patchuso-flux1-projector-v1.safetensorsComfyUI/models/model_patches/
CLIP Visionsigclip_vision_patch14_384.safetensorsComfyUI/models/clip_visions/

⚠️ 注意:

  • 使用 ComfyUI 开发版(nightly),确保支持 ModelPatchLoader 等新节点
  • 不推荐使用稳定版或桌面版,可能缺少最新功能支持

工作流使用指南

1. 加载工作流

在 ComfyUI 的“工作流模板”中搜索:

Flux > USO - Flux.1 Dev USO Reference Image Generation

若未找到,请确认:

  • ComfyUI 已更新至最新开发版
  • 启动日志无节点导入错误
字节跳动 USO 模型 ComfyUI 原生工作流指南:实现风格与主体统一的 AI 生成

2. 模型加载节点配置

确保以下节点正确加载对应模型:

节点加载内容
Load Checkpointflux1-dev-fp8.safetensors
LoraLoaderModelOnlyuso-flux1-dit-lora-v1.safetensors
ModelPatchLoaderuso-flux1-projector-v1.safetensors
Load CLIP Visionsigclip_vision_patch14_384.safetensors

✅ 所有模型必须正确加载,否则无法实现风格/主体控制

3. 输入与参数设置

字节跳动 USO 模型 ComfyUI 原生工作流指南:实现风格与主体统一的 AI 生成

3.1 内容参考图像(Content Reference)

  • 上传主体图像(如人物全身/半身照)
  • ImageScaleToMaxDimension 节点将会缩放你的输入图像用于内容参考,512px 会保留更多的角色特征,但如果你仅使用角色头部作为输入,最终输出图像往往会有角色占据太多空间的问题(或者结果很糟)。设置为 1024px 会得到更好的结果。

💡 提示:内容参考用于控制生成图像的主体结构与姿态

3.2 风格参考图像(Style Reference)

  • 可选上传风格参考图(如油画、赛博朋克插画)
  • 若不使用,可用 Ctrl+B 绕过“Style Reference”节点组

💡 提示:风格参考用于控制色彩、笔触、纹理等艺术特征

字节跳动 USO 模型 ComfyUI 原生工作流指南:实现风格与主体统一的 AI 生成

3.3 提示词(Prompt)

  • 可使用默认提示词,或根据目标场景自定义
  • 建议明确描述场景、光照、构图等细节,辅助模型理解意图

3.4 输出尺寸调整

  • 通过 Empty Latent Image 节点设置输出分辨率
  • 支持非标准比例(如竖版、宽幅)

3.5 推理加速(可选)

  • EasyCache 节点用于缓存中间特征,提升推理速度
  • 但可能轻微牺牲细节质量
  • 如需最高质量,可用 Ctrl+B 绕过该节点

4. 运行工作流

点击 Run 按钮,或使用快捷键:

Ctrl + Enter(Windows) / Cmd + Enter(Mac)

等待生成完成,查看输出结果。

🔁 四种使用模式(灵活切换)

该工作流支持四种运行模式,通过绕过(Ctrl+B)特定节点组即可切换:

模式操作方式适用场景
1. 仅内容参考(主体驱动)绕过“Style Reference”组将角色放入新场景,保持身份一致
2. 仅风格参考(风格驱动)替换“Content Reference”为 Empty Latent Image将文本描述内容转换为指定风格
3. 混合参考(组合模式)同时输入内容与风格图角色+风格同步迁移
4. 文生图(Text-to-Image)绕过“Style Reference”和“Content Reference”组纯文本生成,无参考图依赖

✅ 一套工作流,满足多种创作需求,无需重复配置

✅ 使用建议与注意事项

项目建议
输入图像质量使用清晰、光照均匀的图像,避免模糊或遮挡
内容参考尺寸推荐 1024px,平衡特征保留与构图合理性
风格迁移强度当前模型未暴露风格强度滑块,可通过提示词引导调整
模型版本兼容性仅支持 FLUX.1-dev 架构
© 版权声明

相关文章

暂无评论

none
暂无评论...