Guide d’utilisation complet des flux de travail Qwen-Image ComfyUI natif, GGUF et Nunchaku
Qwen-Image est un modèle de base de génération d’images développé par l’équipe Tongyi Lab d’Alibaba, utilisant une architecture MMDiT (Transformateur de diffusion multimodal) de 20 milliards de paramètres, publié en open source sous la licence Apache 2.0. Le modèle présente des avantages techniques uniques dans le domaine de la génération d’images, particulièrement performant dans le rendu de texte et l’édition d’images.
Caractéristiques principales :
- Capacité de rendu de texte multilingue : Le modèle peut générer avec précision des images contenant de l’anglais, du chinois, du coréen, du japonais et d’autres langues, avec un texte clair et lisible qui s’harmonise avec le style de l’image
- Prise en charge de styles artistiques variés : Du style réaliste aux créations artistiques, du style anime au design moderne, le modèle peut basculer de manière flexible entre différents styles visuels selon les invites
- Fonction d’édition d’images précise : Prend en charge les modifications locales, les transformations de style et les ajouts de contenu sur les images existantes, tout en maintenant la cohérence visuelle globale
Ressources associées :
Guide du flux de travail natif Qwen-Image ComfyUI
Trois modèles différents sont utilisés dans le flux de travail joint à ce document :
- Modèle original Qwen-Image fp8_e4m3fn
- Version accélérée 8 étapes : Modèle original Qwen-Image fp8_e4m3fn utilisant le LoRA 8 étapes lightx2v
- Version distillée : Modèle distillé Qwen-Image fp8_e4m3fn
Référence d’utilisation de la VRAM GPU : RTX4090D 24GB
Modèle utilisé | Utilisation VRAM | Première génération | Deuxième génération |
---|---|---|---|
fp8_e4m3fn | 86% | ≈ 94s | ≈ 71s |
fp8_e4m3fn utilisant LoRA 8 étapes lightx2v | 86% | ≈ 55s | ≈ 34s |
Version distillée fp8_e4m3fn | 86% | ≈ 69s | ≈ 36s |
1. Fichier de flux de travail
Après avoir mis à jour ComfyUI, vous pouvez trouver le fichier de flux de travail dans les modèles, ou faites glisser le flux de travail ci-dessous dans ComfyUI pour le charger
Télécharger le flux de travail au format JSON officiel
Version distillée
2. Téléchargement des modèles
Versions que vous pouvez trouver dans le dépôt ComfyOrg
- Qwen-Image_bf16 (40,9 Go)
- Qwen-Image_fp8 (20,4 Go)
- Version distillée (non officielle, seulement 15 étapes)
Tous les modèles peuvent être trouvés sur Huggingface ou ModelScope
Modèle de diffusion
Qwen_image_distill
- L’auteur original de la version distillée recommande 15 étapes cfg 1.0
- Les tests montrent que cette version distillée fonctionne bien avec 10 étapes cfg 1.0 ; choisissez euler ou res_multistep selon le type d’image souhaité
LoRA
Encodeur de texte
VAE
Emplacement de stockage des modèles
📂 ComfyUI/
├── 📂 models/
│ ├── 📂 diffusion_models/
│ │ ├── qwen_image_fp8_e4m3fn.safetensors
│ │ └── qwen_image_distill_full_fp8_e4m3fn.safetensors ## Version distillée
│ ├── 📂 loras/
│ │ └── Qwen-Image-Lightning-8steps-V1.0.safetensors ## Modèle LoRA d'accélération 8 étapes
│ ├── 📂 vae/
│ │ └── qwen_image_vae.safetensors
│ └── 📂 text_encoders/
│ └── qwen_2.5_vl_7b_fp8_scaled.safetensors
3. Compléter le flux de travail étape par étape
- Assurez-vous que le nœud
Load Diffusion Model
chargeqwen_image_fp8_e4m3fn.safetensors
- Assurez-vous que le nœud
Load CLIP
chargeqwen_2.5_vl_7b_fp8_scaled.safetensors
- Assurez-vous que le nœud
Load VAE
chargeqwen_image_vae.safetensors
- Assurez-vous que les dimensions de l’image sont définies dans le nœud
EmptySD3LatentImage
- Définissez les invites dans le nœud
CLIP Text Encoder
; actuellement testé pour prendre en charge au moins : anglais, chinois, coréen, japonais, italien, etc. - Pour activer le LoRA d’accélération 8 étapes lightx2v, sélectionnez-le et utilisez
Ctrl + B
pour activer le nœud, et modifiez les paramètres de Ksampler selon les paramètres à la position8
- Cliquez sur le bouton
Queue
, ou utilisez le raccourciCtrl(cmd) + Enter
pour exécuter le flux de travail - Paramètres pour KSampler correspondant aux différentes versions de modèles et flux de travail
La version distillée du modèle et le LoRA d’accélération 8 étapes lightx2v ne semblent pas pouvoir être utilisés simultanément ; vous pouvez tester des paramètres de combinaison spécifiques pour vérifier si l’utilisation combinée est faisable
Flux de travail Qwen-Image version GGUF ComfyUI
La version GGUF est plus adaptée aux utilisateurs avec peu de VRAM, et dans certaines configurations de poids, vous n’avez besoin que d’environ 8 Go de VRAM pour exécuter Qwen-Image
Référence d’utilisation de la VRAM :
Flux de travail | Utilisation VRAM | Première génération | Générations suivantes |
---|---|---|---|
qwen-image-Q4_K_S.gguf | 56% | ≈ 135s | ≈ 77s |
Avec LoRA 8 étapes | 56% | ≈ 100s | ≈ 45s |
Adresse du modèle : Qwen-Image-gguf
1. Mettre à jour ou installer des nœuds personnalisés
L’utilisation de la version GGUF nécessite que vous installiez ou mettiez à jour le plugin ComfyUI-GGUF
Veuillez vous référer à Comment installer des nœuds personnalisés ComfyUI, ou rechercher et installer via le Manager
2. Téléchargement du flux de travail
3. Téléchargement des modèles
La version GGUF utilise uniquement le modèle de diffusion différemment des autres
Veuillez visiter https://huggingface.co/city96/Qwen-Image-gguf pour télécharger n’importe quel poids ; généralement, les fichiers de plus grande taille offrent une meilleure qualité mais nécessitent également plus de VRAM. Dans ce tutoriel, j’utiliserai la version suivante :
📂 ComfyUI/
├── 📂 models/
│ ├── 📂 diffusion_models/
│ │ └── qwen-image-Q4_K_S.gguf # Ou toute autre version que vous choisissez
3. Compléter le flux de travail étape par étape
- Assurez-vous que le nœud
Unet Loader(GGUF)
chargeqwen-image-Q4_K_S.gguf
ou toute autre version que vous avez téléchargée- Assurez-vous que ComfyUI-GGUF est installé et mis à jour
- Pour
LightX2V 8Steps LoRA
, il n’est pas activé par défaut ; vous pouvez le sélectionner et utiliser Ctrl+B pour activer le nœud - Si le LoRA 8 étapes n’est pas activé, le nombre d’étapes par défaut est 20 ; si vous activez le LoRA 8 étapes, veuillez le régler sur 8
- Voici la référence pour régler le nombre d’étapes correspondant
- Cliquez sur le bouton
Queue
, ou utilisez le raccourciCtrl(cmd) + Enter
pour exécuter le flux de travail
Flux de travail version Nunchaku de Qwen-Image
Adresse du modèle : nunchaku-qwen-image Adresse du nœud personnalisé : https://github.com/nunchaku-tech/ComfyUI-nunchaku
Support Nunchaku en attente