ByteDance USO ComfyUIワークフローガイド、画像スタイル転送およびサブジェクトアイデンティティ保持画像生成
USO (Unified Style and Subject-Driven Generation) は、ByteDanceのUXOチームが開発したモデルで、スタイル駆動型とサブジェクト駆動型の生成タスクを統一します。 FLUX.1-devアーキテクチャをベースに構築され、従来の方法ではスタイル駆動型とサブジェクト駆動型の生成を対立するタスクとして扱う問題を解決します。USOは、コンテンツとスタイルの分離と再結合を核となる目標とする統一フレームワークを通じてこれを解決します。
このモデルは2段階の学習方法を採用しています:
- 第1段階:スタイルアライメント学習を通じてSigLIP埋め込みをアラインし、スタイル機能を持つモデルを取得
- 第2段階:条件エンコーダを分離し、トリプレットデータで学習して、結合条件生成を実現
USOは複数の生成モードをサポートします:
- サブジェクト駆動型生成:サブジェクトのアイデンティティの一貫性を維持し、人物や物体などの特定のサブジェクトのスタイリングに適しています
- スタイル駆動型生成:参照画像のスタイルを新しいコンテンツに適用して、高品質なスタイル転送を実現
- アイデンティティ駆動型生成:アイデンティティの特徴を維持しながらスタイリングを実行し、特にポートレートスタイリングに適しています
- 結合スタイル-サブジェクト生成:サブジェクトとスタイルを同時に制御して、複雑なクリエイティブ表現を実現
- マルチスタイル混合生成:複数スタイルの融合適用をサポート
関連リンク
ByteDance USO ComfyUI ネイティブワークフロー
Loading...
1. ワークフローと入力
以下の画像をダウンロードし、ComfyUIにドラッグして対応するワークフローをロードします。
以下の画像を入力画像として使用します。
2. モデルリンク
checkpoints
loras
model_patches
clip_visions
すべてのモデルをダウンロードし、以下のディレクトリに配置してください:
📂 ComfyUI/
├── 📂 models/
│ ├── 📂 checkpoints/
│ │ └── flux1-dev-fp8.safetensors
│ ├── 📂 loras/
│ │ └── uso-flux1-dit-lora-v1.safetensors
│ ├── 📂 model_patches/
│ │ └── uso-flux1-projector-v1.safetensors
│ ├── 📂 clip_visions/
│ │ └── sigclip_vision_patch14_384.safetensors
3. ワークフロー説明
- モデルのロード:
- 1.1
Load Checkpoint
ノードにflux1-dev-fp8.safetensors
がロードされていることを確認 - 1.2
LoraLoaderModelOnly
ノードにdit_lora.safetensors
がロードされていることを確認 - 1.3
ModelPatchLoader
ノードにprojector.safetensors
がロードされていることを確認 - 1.4
Load CLIP Vision
ノードにsigclip_vision_patch14_384.safetensors
がロードされていることを確認
- 1.1
- コンテンツリファレンス:
- 2.1
Upload
をクリックして、提供された入力画像をアップロード - 2.2
ImageScaleToMaxDimension
ノードは入力画像をコンテンツリファレンス用にスケーリングします。512pxではキャラクターの特徴をより多く保持しますが、キャラクターの頭部のみを入力として使用する場合、最終的な出力画像にはキャラクターが画面を占めすぎるなどの問題がよく発生します。1024pxに設定するとはるかに良い結果が得られます。
- 2.1
- 例では、
コンテンツリファレンス
画像入力のみを使用しています。スタイルリファレンス
画像入力を使用したい場合は、Ctrl-B
を使用してマークされたノードグループをバイパスできます。 - プロンプトを記述するか、デフォルトのままにする
- 必要に応じて画像サイズを設定
- EasyCacheノードは推論の高速化用ですが、品質と詳細も犠牲になります。使用する必要がない場合はバイパスできます(Ctrl+B)。
Run
ボタンをクリックするか、ショートカットCtrl(Cmd) + Enter
を使用してワークフローを実行
4. 追加の注意事項
- スタイルリファレンスのみ:
同じワークフローでスタイルリファレンスのみを使用するワークフローも提供しています
唯一の違いは、
コンテンツリファレンス
ノードを置き換え、Empty Latent Image
ノードのみを使用していることです。
スタイルリファレンス
グループ全体をバイパスして、ワークフローをテキストから画像へのワークフローとして使用することもできます。つまり、このワークフローには4つのバリエーションがあります:
- サブジェクト駆動型生成:コンテンツ(サブジェクト)リファレンスのみを使用
- スタイル駆動型生成:スタイルリファレンスのみを使用
- 結合スタイル-サブジェクト生成:コンテンツとスタイルリファレンスを混合
- テキストから画像への生成:標準的なテキストから画像へのワークフローとして