字节跳动 USO 模型 ComfyUI 原生工作流指南：实现风格与主体统一的 AI 生成

工作流7个月前发布小马良

1,056 0

在 AI 图像生成中，两个核心挑战长期并存：

主体一致性：如何让同一个角色在不同场景中保持身份不变？
风格迁移：如何将参考图的艺术风格准确迁移到新内容上？

传统方案往往需要多个模型、复杂调参，或依赖 LoRA 微调。而现在，字节跳动 UXO 团队推出的 USO 模型（Unified Style-Subject Optimized），试图用一个模型统一解决这两个问题。

基于 FLUX.1-dev 架构，USO 通过解耦学习与风格奖励学习（SRL），实现了对“主体”与“风格”的高效分离与协同控制。

字节跳动推出 USO：统一风格与主体生成模型，开源全方案赋能创作

本文将带你完整解析其在 ComfyUI 中的原生工作流使用方法，涵盖模型部署、参数设置与多模式应用。

字节跳动 USO 模型 ComfyUI 原生工作流指南：实现风格与主体统一的 AI 生成

什么是 USO？

USO（Unified Style-Subject Optimized） 是一种支持风格驱动与主体驱动的统一生成模型，具备三种使用模式：

模式	功能说明
主体驱动	将指定主体（如人物、动物）置于新场景中，保持身份一致
风格驱动	将参考图像的艺术风格应用于新内容（如将照片转为油画）
组合模式	同时使用主体与风格参考，实现“换脸+换风格”一体化输出

✅ 基于 FLUX.1-dev 架构，支持高分辨率、细节保留
✅ 无需额外训练，开箱即用
✅ 支持多条件输入，灵活适配不同创作需求

📦 模型准备

必需模型文件

请下载以下模型并放置到对应目录：

模型类型	文件名	存放路径
Checkpoint	`flux1-dev-fp8.safetensors`	`ComfyUI/models/checkpoints/`
LoRA	`uso-flux1-dit-lora-v1.safetensors`	`ComfyUI/models/loras/`
Model Patch	`uso-flux1-projector-v1.safetensors`	`ComfyUI/models/model_patches/`
CLIP Vision	`sigclip_vision_patch14_384.safetensors`	`ComfyUI/models/clip_visions/`

⚠️ 注意：
使用 ComfyUI 开发版（nightly），确保支持 ModelPatchLoader 等新节点
不推荐使用稳定版或桌面版，可能缺少最新功能支持

工作流使用指南

1. 加载工作流

在 ComfyUI 的“工作流模板”中搜索：

Flux > USO - Flux.1 Dev USO Reference Image Generation

若未找到，请确认：

ComfyUI 已更新至最新开发版
启动日志无节点导入错误

2. 模型加载节点配置

确保以下节点正确加载对应模型：

节点	加载内容
`Load Checkpoint`	`flux1-dev-fp8.safetensors`
`LoraLoaderModelOnly`	`uso-flux1-dit-lora-v1.safetensors`
`ModelPatchLoader`	`uso-flux1-projector-v1.safetensors`
`Load CLIP Vision`	`sigclip_vision_patch14_384.safetensors`

✅ 所有模型必须正确加载，否则无法实现风格/主体控制
模型：https://huggingface.co/Comfy-Org/USO_1.0_Repackaged
魔塔：https://www.modelscope.cn/models/Comfy-Org/USO_1.0_Repackaged

3. 输入与参数设置

3.1 内容参考图像（Content Reference）

上传主体图像（如人物全身/半身照）
ImageScaleToMaxDimension 节点将会缩放你的输入图像用于内容参考，512px 会保留更多的角色特征，但如果你仅使用角色头部作为输入，最终输出图像往往会有角色占据太多空间的问题(或者结果很糟)。设置为 1024px 会得到更好的结果。

💡 提示：内容参考用于控制生成图像的主体结构与姿态

3.2 风格参考图像（Style Reference）

可选上传风格参考图（如油画、赛博朋克插画）
若不使用，可用 Ctrl+B 绕过“Style Reference”节点组

💡 提示：风格参考用于控制色彩、笔触、纹理等艺术特征

3.3 提示词（Prompt）

可使用默认提示词，或根据目标场景自定义
建议明确描述场景、光照、构图等细节，辅助模型理解意图

3.4 输出尺寸调整

通过 Empty Latent Image 节点设置输出分辨率
支持非标准比例（如竖版、宽幅）

3.5 推理加速（可选）

EasyCache 节点用于缓存中间特征，提升推理速度
但可能轻微牺牲细节质量
如需最高质量，可用 Ctrl+B 绕过该节点

4. 运行工作流

点击 Run 按钮，或使用快捷键：

Ctrl + Enter（Windows） / Cmd + Enter（Mac）

等待生成完成，查看输出结果。

🔁 四种使用模式（灵活切换）

该工作流支持四种运行模式，通过绕过（Ctrl+B）特定节点组即可切换：

模式	操作方式	适用场景
1. 仅内容参考（主体驱动）	绕过“Style Reference”组	将角色放入新场景，保持身份一致
2. 仅风格参考（风格驱动）	替换“Content Reference”为 `Empty Latent Image`	将文本描述内容转换为指定风格
3. 混合参考（组合模式）	同时输入内容与风格图	角色+风格同步迁移
4. 文生图（Text-to-Image）	绕过“Style Reference”和“Content Reference”组	纯文本生成，无参考图依赖

✅ 一套工作流，满足多种创作需求，无需重复配置

✅ 使用建议与注意事项

项目	建议
输入图像质量	使用清晰、光照均匀的图像，避免模糊或遮挡
内容参考尺寸	推荐 1024px，平衡特征保留与构图合理性
风格迁移强度	当前模型未暴露风格强度滑块，可通过提示词引导调整
模型版本兼容性	仅支持 FLUX.1-dev 架构