Guide d’utilisation du workflow Qwen-Image-Layered pour ComfyUI
Qwen-Image-Layered est un modèle de génération d’édition d’images en couches développé par l’équipe Qwen d’Alibaba, basé sur le modèle Qwen-Image et publié sous la licence open source Apache 2.0. Ce modèle peut décomposer les images en plusieurs couches RGBA, chaque couche étant modifiable indépendamment sans affecter le reste du contenu de l’image. Cette approche d’isolement physique rend l’édition d’images plus précise et cohérente.
Contrairement aux méthodes traditionnelles d’édition d’images, Qwen-Image-Layered offre une véritable expérience d’édition en couches en décomposant les images en plusieurs couches RGBA indépendantes. Chaque couche contient des informations complètes de couleur et de transparence, rendant la composition des couches plus naturelle. Cette conception permet aux utilisateurs de contrôler précisément différentes parties d’une image sans craindre que les opérations d’édition n’affectent d’autres zones.
Caractéristiques principales :
- Capacité de décomposition en couches : Peut décomposer les images en plusieurs couches RGBA indépendantes, chaque couche contenant des composants sémantiques ou structurels spécifiques tels que des objets au premier plan, des éléments d’arrière-plan, du texte, etc.
- Édition indépendante des couches : Prend en charge des opérations telles que la recoloration, le remplacement de contenu, la modification de texte, la suppression d’objets, le redimensionnement et le repositionnement pour chaque couche, toutes les opérations n’affectant que la couche cible
- Nombre flexible de couches : Aucune limite fixe sur le nombre de couches ; les images peuvent être décomposées en différents nombres de couches (par exemple, 3, 4, 8 ou plus) selon les besoins
- Décomposition récursive : Prend en charge la décomposition récursive, où n’importe quelle couche peut être décomposée davantage en plus de sous-couches, offrant une plus grande flexibilité pour les besoins d’édition complexes
Note de performance : Ce modèle a une vitesse de génération relativement lente et un temps d’exécution long. Sur RTX Pro 6000 96GB VRAM, l’utilisation maximale de la mémoire peut atteindre 45GB, avec une génération de 1024px prenant 120s. Selon les retours de certains utilisateurs RTX 4090, ce workflow utilise presque toute la VRAM disponible. Il est conseillé aux utilisateurs avec une VRAM limitée d’utiliser la version FP8 pour réduire l’utilisation de la mémoire.
Guide du workflow natif Qwen-Image-Layered pour ComfyUI
Qwen-Image-Layered a un support natif dans ComfyUI, permettant aux utilisateurs d’utiliser directement ce modèle pour l’édition d’images en couches. Aucun nœud personnalisé supplémentaire n’a besoin d’être installé ; il suffit de mettre à jour vers la dernière version de ComfyUI.
1. Fichier de workflow
Après avoir mis à jour ComfyUI, vous pouvez trouver le fichier de workflow dans les modèles, ou faire glisser le workflow ci-dessous dans ComfyUI pour le charger
2. Téléchargement des modèles
Tous les modèles peuvent être trouvés sur Huggingface ou ModelScope
text_encoders
diffusion_models
vae
Emplacement de stockage des modèles
📂 ComfyUI/
├── 📂 models/
│ ├── 📂 text_encoders/
│ │ └── qwen_2.5_vl_7b_fp8_scaled.safetensors
│ ├── 📂 diffusion_models/
│ │ └── qwen_image_layered_bf16.safetensors
│ └── 📂 vae/
│ └── qwen_image_layered_vae.safetensors3. Version FP8
Par défaut, nous utilisons la version bf16, qui nécessite plus de VRAM. Si vous avez une VRAM limitée, vous pouvez utiliser la version fp8 pour réduire l’utilisation de la mémoire :
Lors de l’utilisation de la version fp8, vous devez mettre à jour le chemin du modèle dans le nœud Load Diffusion model dans le Subgraph du workflow pour pointer vers le fichier du modèle de version fp8.
La version fp8 peut réduire considérablement l’utilisation de la VRAM tout en maintenant une bonne qualité de génération, ce qui la rend adaptée aux utilisateurs avec une VRAM limitée.
4. Paramètres du workflow
Paramètres de l’échantillonneur
Ce modèle a une vitesse de génération relativement lente et un temps d’exécution long. Les paramètres d’échantillonnage d’origine recommandent 50 étapes avec une valeur CFG de 4.0, ce qui doublera au moins le temps de génération. Si vous avez besoin d’une génération plus rapide, vous pouvez réduire le nombre d’étapes, mais cela peut affecter la qualité de génération. Il est recommandé de conserver les paramètres par défaut lors de la première utilisation pour obtenir les meilleurs résultats de génération.
Taille d’entrée
Pour la taille d’entrée, 640 pixels est la valeur recommandée, ce qui fournit un bon équilibre entre la qualité et la vitesse de génération. Pour une sortie haute résolution, vous pouvez utiliser 1024 pixels, mais notez que des tailles plus grandes augmenteront considérablement le temps de génération et consommeront également plus de VRAM. Il est recommandé de choisir la taille appropriée en fonction de votre configuration matérielle et de vos besoins réels.
Prompt (Optionnel)
Le prompt texte est destiné à décrire le contenu global de l’image d’entrée, y compris les éléments qui peuvent être partiellement occlus (par exemple, vous pouvez spécifier du texte caché derrière un objet au premier plan). Le prompt n’est pas conçu pour contrôler explicitement le contenu sémantique des couches individuelles, mais plutôt pour aider le modèle à comprendre la structure globale de l’image.
Workflow de la version GGUF de Qwen-Image-Layered
Le workflow de la version GGUF est en attente de mise à jour, veuillez rester à l’écoute.
Liens connexes
- Page du modèle sur Hugging Face
- Page du modèle sur ModelScope
- Article de recherche
- Blog du projet
- Démonstration en ligne
- Workflow ComfyUI