Qwen-Image bénéficie d’une prise en charge native dans ComfyUI
Qwen-Image est un modèle de génération d’images MMDiT comptant 20 milliards de paramètres, conçu pour le rendu de texte complexe et l’édition fine. Il est publié sous licence Apache-2.0. Récemment, il a obtenu une intégration native dans ComfyUI, ce qui permet une prise en main directe via des modèles.
Liens associés :
Points forts du modèle
D’après la page du projet, le modèle se distingue dans les scénarios liés au texte et à la cohérence d’édition, tout en offrant des capacités générales de génération et de compréhension :
- Rendu de texte complexe : préserve les détails typographiques et la cohérence de la mise en page dans plusieurs langues (dont chinois et anglais) ; adapté aux images avec titres, slogans et structures de mise en page
- Édition précise : prise en charge du transfert de style, de l’insertion/suppression d’objets, de l’amélioration des détails, de l’édition de texte dans l’image et même de l’ajustement de la pose humaine
- Capacités de génération générales : du photoréalisme à l’impressionnisme, de l’anime au design minimaliste, avec une adaptation fluide aux styles créatifs
- Tâches de compréhension : détection d’objets, segmentation sémantique, estimation de la profondeur et des bords (Canny), synthèse de nouvelles vues et super‑résolution
- Écosystème et extensibilité : mises à jour du projet indiquant la prise en charge de divers LoRA (par ex. MajicBeauty) et des exemples de déploiement local multi‑GPU avec gestion de file d’attente pour une forte concurrence
Versions actuellement proposées dans ComfyUI
- Qwen-Image_bf16 (≈ 40,9 GB)
- Qwen-Image_fp8 (≈ 20,4 GB)
- Versions distillées non officielles (moins d’étapes d’inférence)
Ces ressources de modèles sont disponibles ici : Hugging Face - Comfy-Org/Qwen-Image_ComfyUI | ModelScope - Comfy-Org/Qwen-Image_ComfyUI
Performances
Voici les mesures réalisées par ComfyUI Wiki lors de la rédaction de la documentation officielle, avec une RTX 4090D 24 GB :
Qwen-Image_fp8
- VRAM : 86 %
- Temps de génération : 94 s (première exécution), 71 s (deuxième)
Qwen-Image_bf16
- VRAM : 96 %
- Temps de génération : 295 s (première exécution), 131 s (deuxième)
Sources et lectures complémentaires
- Page du projet (fonctionnalités, actualités et déploiement) : Qwen-Image GitHub
- Rapport technique (arXiv) : Qwen-Image Technical Report
- Ressources de modèles (miroirs communautaires) : Comfy-Org/Qwen-Image_ComfyUI | ModelScope - Comfy-Org/Qwen-Image_ComfyUI
- Lecture complémentaire (tutoriel) : Documentation ComfyUI · Flux de travail natif Qwen-Image