Skip to content
ComfyUI Wiki
Aidez à Construire une Meilleure Base de Connaissances ComfyUI Devenir Parrain
Aucun article pour le moment. Revenez plus tard !

Guide d’utilisation complet des flux de travail Qwen-Image ComfyUI natif, GGUF et Nunchaku

Qwen-Image est un modèle de base de génération d’images développé par l’équipe Tongyi Lab d’Alibaba, utilisant une architecture MMDiT (Transformateur de diffusion multimodal) de 20 milliards de paramètres, publié en open source sous la licence Apache 2.0. Le modèle présente des avantages techniques uniques dans le domaine de la génération d’images, particulièrement performant dans le rendu de texte et l’édition d’images.

Caractéristiques principales :

  • Capacité de rendu de texte multilingue : Le modèle peut générer avec précision des images contenant de l’anglais, du chinois, du coréen, du japonais et d’autres langues, avec un texte clair et lisible qui s’harmonise avec le style de l’image
  • Prise en charge de styles artistiques variés : Du style réaliste aux créations artistiques, du style anime au design moderne, le modèle peut basculer de manière flexible entre différents styles visuels selon les invites
  • Fonction d’édition d’images précise : Prend en charge les modifications locales, les transformations de style et les ajouts de contenu sur les images existantes, tout en maintenant la cohérence visuelle globale

Ressources associées :

Loading...

Guide du flux de travail natif Qwen-Image ComfyUI

Trois modèles différents sont utilisés dans le flux de travail joint à ce document :

  1. Modèle original Qwen-Image fp8_e4m3fn
  2. Version accélérée 8 étapes : Modèle original Qwen-Image fp8_e4m3fn utilisant le LoRA 8 étapes lightx2v
  3. Version distillée : Modèle distillé Qwen-Image fp8_e4m3fn

Référence d’utilisation de la VRAM GPU : RTX4090D 24GB

Modèle utiliséUtilisation VRAMPremière générationDeuxième génération
fp8_e4m3fn86%≈ 94s≈ 71s
fp8_e4m3fn utilisant LoRA 8 étapes lightx2v86%≈ 55s≈ 34s
Version distillée fp8_e4m3fn86%≈ 69s≈ 36s

1. Fichier de flux de travail

Après avoir mis à jour ComfyUI, vous pouvez trouver le fichier de flux de travail dans les modèles, ou faites glisser le flux de travail ci-dessous dans ComfyUI pour le charger Flux de travail texte vers image Qwen-image

Télécharger le flux de travail au format JSON officiel

Version distillée

2. Téléchargement des modèles

Versions que vous pouvez trouver dans le dépôt ComfyOrg

  • Qwen-Image_bf16 (40,9 Go)
  • Qwen-Image_fp8 (20,4 Go)
  • Version distillée (non officielle, seulement 15 étapes)

Tous les modèles peuvent être trouvés sur Huggingface ou ModelScope

Modèle de diffusion

Qwen_image_distill

  • L’auteur original de la version distillée recommande 15 étapes cfg 1.0
  • Les tests montrent que cette version distillée fonctionne bien avec 10 étapes cfg 1.0 ; choisissez euler ou res_multistep selon le type d’image souhaité

LoRA

Encodeur de texte

VAE

Emplacement de stockage des modèles

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 diffusion_models/
│   │   ├── qwen_image_fp8_e4m3fn.safetensors
│   │   └── qwen_image_distill_full_fp8_e4m3fn.safetensors ## Version distillée
│   ├── 📂 loras/
│   │   └── Qwen-Image-Lightning-8steps-V1.0.safetensors   ## Modèle LoRA d'accélération 8 étapes
│   ├── 📂 vae/
│   │   └── qwen_image_vae.safetensors
│   └── 📂 text_encoders/
│       └── qwen_2.5_vl_7b_fp8_scaled.safetensors

3. Compléter le flux de travail étape par étape

Diagramme d'étapes

  1. Assurez-vous que le nœud Load Diffusion Model charge qwen_image_fp8_e4m3fn.safetensors
  2. Assurez-vous que le nœud Load CLIP charge qwen_2.5_vl_7b_fp8_scaled.safetensors
  3. Assurez-vous que le nœud Load VAE charge qwen_image_vae.safetensors
  4. Assurez-vous que les dimensions de l’image sont définies dans le nœud EmptySD3LatentImage
  5. Définissez les invites dans le nœud CLIP Text Encoder ; actuellement testé pour prendre en charge au moins : anglais, chinois, coréen, japonais, italien, etc.
  6. Pour activer le LoRA d’accélération 8 étapes lightx2v, sélectionnez-le et utilisez Ctrl + B pour activer le nœud, et modifiez les paramètres de Ksampler selon les paramètres à la position 8
  7. Cliquez sur le bouton Queue, ou utilisez le raccourci Ctrl(cmd) + Enter pour exécuter le flux de travail
  8. Paramètres pour KSampler correspondant aux différentes versions de modèles et flux de travail

La version distillée du modèle et le LoRA d’accélération 8 étapes lightx2v ne semblent pas pouvoir être utilisés simultanément ; vous pouvez tester des paramètres de combinaison spécifiques pour vérifier si l’utilisation combinée est faisable

Flux de travail Qwen-Image version GGUF ComfyUI

La version GGUF est plus adaptée aux utilisateurs avec peu de VRAM, et dans certaines configurations de poids, vous n’avez besoin que d’environ 8 Go de VRAM pour exécuter Qwen-Image

Référence d’utilisation de la VRAM :

Flux de travailUtilisation VRAMPremière générationGénérations suivantes
qwen-image-Q4_K_S.gguf56%≈ 135s≈ 77s
Avec LoRA 8 étapes56%≈ 100s≈ 45s

Adresse du modèle : Qwen-Image-gguf

1. Mettre à jour ou installer des nœuds personnalisés

L’utilisation de la version GGUF nécessite que vous installiez ou mettiez à jour le plugin ComfyUI-GGUF

Veuillez vous référer à Comment installer des nœuds personnalisés ComfyUI, ou rechercher et installer via le Manager

2. Téléchargement du flux de travail

Flux de travail Qwen-Image GGUF

3. Téléchargement des modèles

La version GGUF utilise uniquement le modèle de diffusion différemment des autres

Veuillez visiter https://huggingface.co/city96/Qwen-Image-gguf pour télécharger n’importe quel poids ; généralement, les fichiers de plus grande taille offrent une meilleure qualité mais nécessitent également plus de VRAM. Dans ce tutoriel, j’utiliserai la version suivante :

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 diffusion_models/
│   │   └── qwen-image-Q4_K_S.gguf # Ou toute autre version que vous choisissez

3. Compléter le flux de travail étape par étape

Diagramme d'étapes

  1. Assurez-vous que le nœud Unet Loader(GGUF) charge qwen-image-Q4_K_S.gguf ou toute autre version que vous avez téléchargée
    • Assurez-vous que ComfyUI-GGUF est installé et mis à jour
  2. Pour LightX2V 8Steps LoRA, il n’est pas activé par défaut ; vous pouvez le sélectionner et utiliser Ctrl+B pour activer le nœud
  3. Si le LoRA 8 étapes n’est pas activé, le nombre d’étapes par défaut est 20 ; si vous activez le LoRA 8 étapes, veuillez le régler sur 8
  4. Voici la référence pour régler le nombre d’étapes correspondant
  5. Cliquez sur le bouton Queue, ou utilisez le raccourci Ctrl(cmd) + Enter pour exécuter le flux de travail

Flux de travail version Nunchaku de Qwen-Image

Adresse du modèle : nunchaku-qwen-image Adresse du nœud personnalisé : https://github.com/nunchaku-tech/ComfyUI-nunchaku

Support Nunchaku en attente