바이트댄스, USO 발표: 통합 스타일 및 주체 기반 이미지 생성 모델
2025. 08. 28.
ByteDance USO ComfyUI 워크플로우 가이드, 이미지 스타일 전이 및 주제 정체성 보존 이미지 생성
USO (Unified Style and Subject-Driven Generation) 은 ByteDance의 UXO 팀이 개발한 모델로, 스타일 기반 및 주제 기반 생성 작업을 통합합니다. FLUX.1-dev 아키텍처를 기반으로 구축된 이 모델은 전통적인 방법이 스타일 기반 및 주제 기반 생성을 반대되는 작업으로 취급하는 문제를 해결합니다. USO는 콘텐츠와 스타일의 분리 및 재조합을 핵심 목표로 하는 통합 프레임워크를 통해 이를 해결합니다.
이 모델은 두 단계 학습 방법을 채택합니다:
- 1단계: 스타일 정렬 학습을 통해 SigLIP 임베딩을 정렬하여 스타일 기능을 갖춘 모델을 얻음
- 2단계: 조건부 인코더를 분리하고 트리플릿 데이터로 학습하여 결합 조건부 생성을 실현
USO는 여러 생성 모드를 지원합니다:
- 주제 기반 생성: 주제 정체성 일관성을 유지하여 특정 주제(사람 및 물체 등)의 스타일링에 적합
- 스타일 기반 생성: 참조 이미지의 스타일을 새 콘텐츠에 적용하여 고품질 스타일 전이를 실현
- 정체성 기반 생성: 정체성 특성을 유지하면서 스타일링을 수행하며, 특히 인물 스타일링에 적합
- 결합 스타일-주제 생성: 주제와 스타일을 동시에 제어하여 복잡한 창의적 표현을 실현
- 멀티 스타일 혼합 생성: 여러 스타일의 융합 적용을 지원
관련 링크
ByteDance USO ComfyUI 네이티브 워크플로우
Loading...
1. 워크플로우 및 입력
아래 이미지를 다운로드하고 ComfyUI로 드래그하여 해당 워크플로우를 로드합니다.
아래 이미지를 입력 이미지로 사용합니다.
2. 모델 링크
checkpoints
loras
model_patches
clip_visions
모든 모델을 다운로드하고 다음 디렉토리에 배치하세요:
📂 ComfyUI/
├── 📂 models/
│ ├── 📂 checkpoints/
│ │ └── flux1-dev-fp8.safetensors
│ ├── 📂 loras/
│ │ └── uso-flux1-dit-lora-v1.safetensors
│ ├── 📂 model_patches/
│ │ └── uso-flux1-projector-v1.safetensors
│ ├── 📂 clip_visions/
│ │ └── sigclip_vision_patch14_384.safetensors
3. 워크플로우 설명
- 모델 로드:
- 1.1
Load Checkpoint
노드에flux1-dev-fp8.safetensors
가 로드되었는지 확인 - 1.2
LoraLoaderModelOnly
노드에dit_lora.safetensors
가 로드되었는지 확인 - 1.3
ModelPatchLoader
노드에projector.safetensors
가 로드되었는지 확인 - 1.4
Load CLIP Vision
노드에sigclip_vision_patch14_384.safetensors
가 로드되었는지 확인
- 1.1
- 콘텐츠 참조:
- 2.1
Upload
를 클릭하여 제공된 입력 이미지를 업로드 - 2.2
ImageScaleToMaxDimension
노드는 입력 이미지를 콘텐츠 참조용으로 스케일링합니다. 512px는 캐릭터 특성을 더 많이 유지하지만 캐릭터의 머리만 입력으로 사용하는 경우 최종 출력 이미지에 캐릭터가 너무 많은 공간을 차지하는 문제가 발생하는 경우가 많습니다. 1024px로 설정하면 훨씬 더 좋은 결과를 얻을 수 있습니다.
- 2.1
- 예제에서는
콘텐츠 참조
이미지 입력만 사용합니다.스타일 참조
이미지 입력을 사용하려면Ctrl-B
를 사용하여 표시된 노드 그룹을 우회할 수 있습니다. - 프롬프트를 작성하거나 기본값 유지
- 필요시 이미지 크기 설정
- EasyCache 노드는 추론 가속화용이지만 품질과 디테일도 희생합니다. 사용하지 않으려면 우회할 수 있습니다(Ctrl+B).
Run
버튼을 클릭하거나 단축키Ctrl(Cmd) + Enter
를 사용하여 워크플로우 실행
4. 추가 참고사항
- 스타일 참조만:
동일한 워크플로우에서 스타일 참조만 사용하는 워크플로우도 제공합니다
유일한 차이점은
콘텐츠 참조
노드를 대체하고 Empty Latent Image
노드만 사용했다는 것입니다.
- 전체
스타일 참조
그룹을 우회하고 워크플로우를 텍스트-이미지 워크플로우로 사용할 수도 있으며, 이는 이 워크플로우가 4가지 변형이 있다는 것을 의미합니다:
- 주제 기반 생성: 콘텐츠(주제) 참조만 사용
- 스타일 기반 생성: 스타일 참조만 사용
- 결합 스타일-주제 생성: 콘텐츠와 스타일 참조 혼합
- 텍스트-이미지 생성: 표준 텍스트-이미지 워크플로우로