腾讯混元世界Voyager:从单张图片生成3D世界探索视频
2025/09/05
ByteDance USO ComfyUI工作流使用指南,图像风格迁移及角色主体一致性保持的图像生成
USO (统一风格和主题驱动生成) 是字节跳动UXO团队开发的模型,它统一了风格驱动和主题驱动的生成任务。 该模型基于FLUX.1-dev架构,解决了传统方法将风格驱动和主题驱动生成视为对立任务的问题。USO通过一个统一框架来解决这个问题,其核心目标是内容和风格的解耦与重组。
该模型采用两阶段训练方法:
- 第一阶段:通过对齐SigLIP嵌入进行风格对齐训练,获得具有风格能力的模型
- 第二阶段:解耦条件编码器并在三元组数据上训练,实现联合条件生成
USO支持多种生成模式:
- 主题驱动生成:保持主题身份一致性,适用于特定主题(如人物和物体)的风格化
- 风格驱动生成:通过将参考图像的风格应用于新内容来实现高质量的风格迁移
- 身份驱动生成:在保持身份特征的同时进行风格化,特别适用于人像风格化
- 联合风格-主题生成:同时控制主题和风格,实现复杂的创意表达
- 多风格混合生成:支持多种风格的融合应用
相关链接
字节跳动 USO ComfyUI 原生工作流
Loading...
1. 工作流和输入
下载下图并将其拖入ComfyUI以加载相应的工作流。
使用下图作为输入图像。
2. 模型链接
checkpoints
loras
model_patches
clip_visions
请下载所有模型并将其放置在以下目录中:
📂 ComfyUI/
├── 📂 models/
│ ├── 📂 checkpoints/
│ │ └── flux1-dev-fp8.safetensors
│ ├── 📂 loras/
│ │ └── uso-flux1-dit-lora-v1.safetensors
│ ├── 📂 model_patches/
│ │ └── uso-flux1-projector-v1.safetensors
│ ├── 📂 clip_visions/
│ │ └── sigclip_vision_patch14_384.safetensors
3. 工作流说明
- 加载模型:
- 1.1 确保
Load Checkpoint
节点已加载flux1-dev-fp8.safetensors
- 1.2 确保
LoraLoaderModelOnly
节点已加载dit_lora.safetensors
- 1.3 确保
ModelPatchLoader
节点已加载projector.safetensors
- 1.4 确保
Load CLIP Vision
节点已加载sigclip_vision_patch14_384.safetensors
- 1.1 确保
- 内容参考:
- 2.1 点击
Upload
上传我们提供的输入图像 - 2.2
ImageScaleToMaxDimension
节点将缩放您的输入图像以供内容参考,512px 将保留更多角色特征,但如果您只使用角色的头部作为输入,最终输出图像通常会出现角色占用空间过大的问题。设置为 1024px 会得到更好的结果。
- 2.1 点击
- 在示例中,我们只使用
内容参考
图像输入。如果您想使用风格参考
图像输入,可以使用Ctrl-B
绕过标记的节点组。 - 编写您的提示词或保持默认
- 如果需要,请设置图像尺寸
- EasyCache 节点用于推理加速,但也会牺牲一些质量和细节。如果不需要使用,可以绕过它(Ctrl+B)。
- 点击
Run
按钮,或使用快捷键Ctrl(Cmd) + Enter
运行工作流
4. 附加说明
- 仅风格参考:
我们还提供了一个只使用风格参考的相同工作流
唯一的区别是我们替换了
内容参考
节点,只使用 空潜空间图像
节点。
- 您也可以绕过整个
风格参考
组,并将工作流用作文本到图像工作流,这意味着此工作流有4种变体:
- 主题驱动生成:仅使用内容(主题)参考
- 风格驱动生成:仅使用风格参考
- 联合风格-主题生成:混合内容和风格参考
- 文本到图像生成:作为标准文本到图像工作流