Skip to content
ComfyUI Wiki
より良い ComfyUI ナレッジベースの構築を支援する サポーターになる

Qwen-Image ComfyUI ネイティブ、GGUF、ナンチャク ワークフロー完全使用ガイド

Qwen-Image はアリババの通義千問チームが開発した画像生成基礎モデルで、20B パラメータの MMDiT(マルチモーダル拡散変換器)アーキテクチャを採用し、Apache 2.0 ライセンスの下でオープンソースとして公開されています。このモデルは画像生成分野で独自の技術的優位性を示しており、特にテキストレンダリングと画像編集で優れた性能を発揮します。

主な特徴

  • 多言語テキストレンダリング能力:英語、中国語、韓国語、日本語など複数の言語を含む画像を正確に生成でき、テキストは明確で読みやすく、画像スタイルと調和します
  • 豊富なアートスタイル対応:リアリスティックスタイルからアート創作、アニメスタイルからモダンデザインまで、プロンプトに応じて柔軟に異なるビジュアルスタイルを切り替えることができます
  • 精密な画像編集機能:既存画像の部分的修正、スタイル変換、コンテンツ追加等の操作をサポートし、全体の視覚的一貫性を維持します

関連リソース:

Loading...

Qwen-Image ComfyUI ネイティブワークフローガイド

本ドキュメントに付属のワークフローで使用される異なるモデルは以下の3種類です:

  1. Qwen-Image オリジナルモデル fp8_e4m3fn
  2. 8ステップ高速版:Qwen-Image オリジナルモデル fp8_e4m3fn に lightx2v 8ステップ LoRA を使用
  3. 蒸留版:Qwen-Image 蒸留版モデル fp8_e4m3fn

VRAM使用量参考 GPU: RTX4090D 24GB

使用モデルVRAM使用量初回生成2回目生成
fp8_e4m3fn86%≈ 94s≈ 71s
fp8_e4m3fn に lightx2v 8ステップ LoRA 使用86%≈ 55s≈ 34s
蒸留版 fp8_e4m3fn86%≈ 69s≈ 36s

1. ワークフローファイル

ComfyUI を更新後、テンプレートからワークフローファイルを見つけることができます。または、以下のワークフローを ComfyUI にドラッグして読み込んでください。 Qwen-image テキストto画像ワークフロー

公式版 JSON 形式ワークフローをダウンロード

蒸留版

2. モデルダウンロード

ComfyOrg リポジトリで見つけられるバージョン

  • Qwen-Image_bf16 (40.9 GB)
  • Qwen-Image_fp8 (20.4 GB)
  • 蒸留版 (非公式、15ステップのみ)

すべてのモデルは Huggingface または 魔搭 で見つけることができます。

拡散モデル

Qwen_image_distill

  • 蒸留版の元の作成者は 15ステップ cfg 1.0 を推奨
  • テスト結果、この蒸留版は 10ステップ cfg 1.0 で良好な性能を示しており、希望する画像タイプに応じて euler または res_multistep を選択してください

LoRA

テキストエンコーダー

VAE

モデル保存場所

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 diffusion_models/
│   │   ├── qwen_image_fp8_e4m3fn.safetensors
│   │   └── qwen_image_distill_full_fp8_e4m3fn.safetensors ## 蒸留版
│   ├── 📂 loras/
│   │   └── Qwen-Image-Lightning-8steps-V1.0.safetensors   ## 8ステップ高速 LoRA モデル
│   ├── 📂 vae/
│   │   └── qwen_image_vae.safetensors
│   └── 📂 text_encoders/
│       └── qwen_2.5_vl_7b_fp8_scaled.safetensors

3. ステップバイステップでのワークフロー完成

ステップ図

  1. Load Diffusion Model ノードが qwen_image_fp8_e4m3fn.safetensors を読み込んでいることを確認
  2. Load CLIP ノードが qwen_2.5_vl_7b_fp8_scaled.safetensors を読み込んでいることを確認
  3. Load VAE ノードが qwen_image_vae.safetensors を読み込んでいることを確認
  4. EmptySD3LatentImage ノードで画像サイズが正しく設定されていることを確認
  5. CLIP Text Encoder ノードにプロンプトを設定してください。現在のテストでは、少なくとも英語、中国語、韓国語、日本語、イタリア語等に対応していることを確認しています
  6. lightx2v の 8ステップ高速 LoRA を有効にする場合、選択後に Ctrl + B でノードを有効化し、番号8の位置の設定パラメータに従って Ksampler の設定を変更してください
  7. Queue ボタンをクリック、またはショートカットキー Ctrl(cmd) + Enter(リターン) でワークフローを実行
  8. モデルとワークフローのバージョンに対応する KSampler のパラメータ設定

蒸留版モデルと lightx2v の 8ステップ高速 LoRA は同時に使用できないようです。具体的な組み合わせパラメータをテストして、組み合わせ使用方法が可能かどうかを検証してください

Qwen-Image GGUF 版 ComfyUI ワークフロー

GGUF 版は低 VRAM ユーザーに優しく、特定の重みの場合、8GB 程度の VRAM で Qwen-Image を実行できます。

VRAM 使用量参考

ワークフローVRAM 使用量初回生成以降の生成
qwen-image-Q4_K_S.gguf56%≈ 135s≈ 77s
8steps LoRA 付き56%≈ 100s≈ 45s

モデルアドレス:Qwen-Image-gguf

1. カスタムノードの更新またはインストール

GGUF 版を使用するには、ComfyUI-GGUF プラグインをインストールまたは更新する必要があります。

詳細はComfyUI カスタムノードのインストール方法を参照するか、Manager から検索してインストールしてください。

2. ワークフローダウンロード

Qwen-Image GGUF ワークフロー

3. モデルダウンロード

GGUF 版で使用されるモデルは拡散モデルのみが他と異なります。

https://huggingface.co/city96/Qwen-Image-gguf にアクセスして任意の重みをダウンロードしてください。通常、ファイルサイズが大きいほど品質が良く、より高い VRAM を要求します。本チュートリアルでは以下のバージョンを使用します:

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 diffusion_models/
│   │   └── qwen-image-Q4_K_S.gguf # または選択した他のバージョン

3. ステップバイステップでのワークフロー完成

ステップ図

  1. Unet Loader(GGUF) ノードが qwen-image-Q4_K_S.gguf またはダウンロードした他のバージョンを読み込んでいることを確認
    • ComfyUI-GGUF がインストールされ、更新されていることを確認してください
  2. LightX2V 8Steps LoRA はデフォルトでは有効になっておらず、選択後に Ctrl+B でノードを有効化できます
  3. 8ステップ LoRA が有効でない場合、デフォルトのステップ数は 20 です。8ステップ LoRA を有効にする場合は 8 に設定してください
  4. こちらが対応するステップ数設定の参考です
  5. Queue ボタンをクリック、またはショートカットキー Ctrl(cmd) + Enter(リターン) でワークフローを実行

Qwen-Image ナンチャク版ワークフロー

モデルアドレス:nunchaku-qwen-image カスタムノードアドレス:https://github.com/nunchaku-tech/ComfyUI-nunchaku

ナンチャク対応待ち