Skip to content
Follow me on X
ComfyUI Wiki

Qwen-Image-Layered ComfyUI ワークフロー使用ガイド

Qwen-Image-Layered は、Alibaba の Qwen チームが開発した画像レイヤー編集生成モデルで、Qwen-Image モデルをベースに Apache 2.0 オープンソースライセンスの下で公開されています。このモデルは、画像を複数の RGBA レイヤーに分解し、各レイヤーを画像内の他のコンテンツに影響を与えずに独立して編集できます。この物理的な分離アプローチにより、画像編集がより正確で一貫性のあるものになります。

従来の画像編集方法とは異なり、Qwen-Image-Layered は、画像を複数の独立した RGBA レイヤーに分解することで、真のレイヤー編集体験を実現します。各レイヤーには完全な色情報と透明度情報が含まれており、レイヤー間の合成がより自然になります。この設計により、ユーザーは編集操作が他の領域に影響を与えることを心配することなく、画像の異なる部分を正確に制御できます。

Qwen-Image-Layered の例

主な機能

  • レイヤー分解機能:画像を複数の独立した RGBA レイヤーに分解でき、各レイヤーには前景オブジェクト、背景要素、テキストなどの特定の意味的または構造的コンポーネントが含まれます
  • 独立したレイヤー編集:各レイヤーに対して色変更、コンテンツ置換、テキスト修正、オブジェクト削除、サイズ変更、位置変更などの操作をサポートし、すべての操作はターゲットレイヤーのみに影響します
  • 柔軟なレイヤー数:レイヤー数に固定の制限はなく、必要に応じて画像を異なる数のレイヤー(例:3、4、8 以上)に分解できます
  • 再帰的分解:再帰的分解をサポートし、任意のレイヤーをさらに多くのサブレイヤーに分解でき、複雑な編集ニーズにより大きな柔軟性を提供します

レイヤー分解の例

Loading...
⚠️

パフォーマンスに関する注意:このモデルは生成速度が比較的遅く、実行時間が長くなります。RTX Pro 6000 96GB VRAM では、ピークメモリ使用量が 45GB に達する可能性があり、1024px の生成には 120 秒かかります。一部の RTX 4090 ユーザーからのフィードバックによると、このワークフローは利用可能な VRAM をほぼ完全に使用します。VRAM が限られているユーザーは、メモリ使用量を減らすために FP8 バージョンを使用することをお勧めします。

Qwen-Image-Layered ComfyUI ネイティブワークフローガイド

Qwen-Image-Layered は ComfyUI でネイティブサポートされており、ユーザーはこのモデルを直接使用して画像レイヤー編集を行うことができます。追加のカスタムノードをインストールする必要はなく、ComfyUI を最新バージョンに更新するだけで使用できます。

1. ワークフローファイル

ComfyUI を更新した後、テンプレートからワークフローファイルを見つけるか、以下のワークフローを ComfyUI にドラッグして読み込むことができます

2. モデルのダウンロード

すべてのモデルは Huggingface または ModelScope で見つけることができます

text_encoders

diffusion_models

vae

モデル保存場所

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 text_encoders/
│   │      └── qwen_2.5_vl_7b_fp8_scaled.safetensors
│   ├── 📂 diffusion_models/
│   │      └── qwen_image_layered_bf16.safetensors
│   └── 📂 vae/
│          └── qwen_image_layered_vae.safetensors

3. FP8 バージョン

デフォルトでは、より高い VRAM を必要とする bf16 バージョンを使用します。VRAM が限られている場合は、fp8 バージョンを使用してメモリ使用量を減らすことができます:

fp8 バージョンを使用する場合、ワークフロー内の Subgraph 内の Load Diffusion model ノードでモデルパスを更新し、fp8 バージョンのモデルファイルを指すようにする必要があります。

fp8 バージョンは、良好な生成品質を維持しながら VRAM 使用量を大幅に削減できるため、VRAM が限られているユーザーに適しています。

4. ワークフロー設定

サンプラー設定

このモデルは生成速度が比較的遅く、実行時間が長くなります。元のサンプリング設定では、50 ステップ、CFG 値 4.0 を推奨しており、これにより生成時間が少なくとも 2 倍になります。より高速な生成が必要な場合は、ステップ数を減らすことができますが、生成品質に影響する可能性があります。最初の使用時は、最良の生成結果を得るためにデフォルト設定を維持することをお勧めします。

入力サイズ

入力サイズについては、640 ピクセルが推奨値で、生成品質と速度の間の良好なバランスを提供します。高解像度出力の場合は、1024 ピクセルを使用できますが、より大きなサイズは生成時間を大幅に増加させ、より多くの VRAM も消費することに注意してください。ハードウェア構成と実際のニーズに基づいて適切なサイズを選択することをお勧めします。

プロンプト(オプション)

テキストプロンプトは、入力画像の全体的なコンテンツを記述することを目的としており、部分的に隠されている要素(たとえば、前景オブジェクトの背後に隠されているテキストを指定できます)を含みます。プロンプトは、個々のレイヤーの意味的コンテンツを明示的に制御するように設計されているのではなく、モデルが画像の全体的な構造を理解するのを助けるために設計されています。

Qwen-Image-Layered GGUF バージョンワークフロー

GGUF バージョンのワークフローは更新待ちです。しばらくお待ちください。

関連リンク