ByteDance USO ComfyUI工作流使用指南，图像风格迁移及角色主体一致性保持的图像生成

USO (统一风格和主题驱动生成) 是字节跳动UXO团队开发的模型，它统一了风格驱动和主题驱动的生成任务。该模型基于FLUX.1-dev架构，解决了传统方法将风格驱动和主题驱动生成视为对立任务的问题。USO通过一个统一框架来解决这个问题，其核心目标是内容和风格的解耦与重组。

USO

该模型采用两阶段训练方法：

第一阶段：通过对齐SigLIP嵌入进行风格对齐训练，获得具有风格能力的模型
第二阶段：解耦条件编码器并在三元组数据上训练，实现联合条件生成

USO支持多种生成模式：

主题驱动生成：保持主题身份一致性，适用于特定主题（如人物和物体）的风格化
风格驱动生成：通过将参考图像的风格应用于新内容来实现高质量的风格迁移
身份驱动生成：在保持身份特征的同时进行风格化，特别适用于人像风格化
联合风格-主题生成：同时控制主题和风格，实现复杂的创意表达
多风格混合生成：支持多种风格的融合应用

相关链接

字节跳动 USO ComfyUI 原生工作流

1. 工作流和输入

下载下图并将其拖入ComfyUI以加载相应的工作流。

Workflow

使用下图作为输入图像。

input

2. 模型链接

checkpoints

flux1-dev-fp8.safetensors

loras

uso-flux1-dit-lora-v1.safetensors

model_patches

uso-flux1-projector-v1.safetensors

clip_visions

sigclip_vision_patch14_384.safetensors

请下载所有模型并将其放置在以下目录中：

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 checkpoints/
│   │   └── flux1-dev-fp8.safetensors
│   ├── 📂 loras/
│   │   └── uso-flux1-dit-lora-v1.safetensors
│   ├── 📂 model_patches/
│   │   └── uso-flux1-projector-v1.safetensors
│   ├── 📂 clip_visions/
│   │   └── sigclip_vision_patch14_384.safetensors

3. 工作流说明

Workflow

加载模型：
- 1.1 确保 Load Checkpoint 节点已加载 flux1-dev-fp8.safetensors
- 1.2 确保 LoraLoaderModelOnly 节点已加载 dit_lora.safetensors
- 1.3 确保 ModelPatchLoader 节点已加载 projector.safetensors
- 1.4 确保 Load CLIP Vision 节点已加载 sigclip_vision_patch14_384.safetensors
内容参考：
- 2.1 点击 Upload 上传我们提供的输入图像
- 2.2 ImageScaleToMaxDimension 节点将缩放您的输入图像以供内容参考，512px 将保留更多角色特征，但如果您只使用角色的头部作为输入，最终输出图像通常会出现角色占用空间过大的问题。设置为 1024px 会得到更好的结果。
在示例中，我们只使用 内容参考 图像输入。如果您想使用 风格参考 图像输入，可以使用 Ctrl-B 绕过标记的节点组。
编写您的提示词或保持默认
如果需要，请设置图像尺寸
EasyCache 节点用于推理加速，但也会牺牲一些质量和细节。如果不需要使用，可以绕过它（Ctrl+B）。
点击 Run 按钮，或使用快捷键 Ctrl(Cmd) + Enter 运行工作流

4. 附加说明

仅风格参考：

我们还提供了一个只使用风格参考的相同工作流

Workflow 唯一的区别是我们替换了 内容参考 节点，只使用 空潜空间图像 节点。

您也可以绕过整个 风格参考 组，并将工作流用作文本到图像工作流，这意味着此工作流有4种变体：

主题驱动生成：仅使用内容（主题）参考
风格驱动生成：仅使用风格参考
联合风格-主题生成：混合内容和风格参考
文本到图像生成：作为标准文本到图像工作流