Qwen-Image bénéficie d'une prise en charge native dans ComfyUI

Qwen-Image est un modèle de génération d'images MMDiT comptant 20 milliards de paramètres, conçu pour le rendu de texte complexe et l'édition fine. Il est publié sous licence Apache-2.0. Récemment, il a obtenu une intégration native dans ComfyUI, ce qui permet une prise en main directe via des modèles.

Liens associés :

Points forts du modèle

D'après la page du projet, le modèle se distingue dans les scénarios liés au texte et à la cohérence d'édition, tout en offrant des capacités générales de génération et de compréhension :

Rendu de texte complexe : préserve les détails typographiques et la cohérence de la mise en page dans plusieurs langues (dont chinois et anglais) ; adapté aux images avec titres, slogans et structures de mise en page
Édition précise : prise en charge du transfert de style, de l'insertion/suppression d'objets, de l'amélioration des détails, de l'édition de texte dans l'image et même de l'ajustement de la pose humaine
Capacités de génération générales : du photoréalisme à l'impressionnisme, de l'anime au design minimaliste, avec une adaptation fluide aux styles créatifs
Tâches de compréhension : détection d'objets, segmentation sémantique, estimation de la profondeur et des bords (Canny), synthèse de nouvelles vues et super‑résolution
Écosystème et extensibilité : mises à jour du projet indiquant la prise en charge de divers LoRA (par ex. MajicBeauty) et des exemples de déploiement local multi‑GPU avec gestion de file d'attente pour une forte concurrence

Versions actuellement proposées dans ComfyUI

Qwen-Image_bf16 (≈ 40,9 GB)
Qwen-Image_fp8 (≈ 20,4 GB)
Versions distillées non officielles (moins d'étapes d'inférence)

Ces ressources de modèles sont disponibles ici : Hugging Face - Comfy-Org/Qwen-Image_ComfyUI ｜ ModelScope - Comfy-Org/Qwen-Image_ComfyUI

Performances

Voici les mesures réalisées par ComfyUI Wiki lors de la rédaction de la documentation officielle, avec une RTX 4090D 24 GB :

Qwen-Image_fp8

VRAM : 86 %
Temps de génération : 94 s (première exécution), 71 s (deuxième)

Qwen-Image_bf16

VRAM : 96 %
Temps de génération : 295 s (première exécution), 131 s (deuxième)

Sources et lectures complémentaires

Page du projet (fonctionnalités, actualités et déploiement) : Qwen-Image GitHub
Rapport technique (arXiv) : Qwen-Image Technical Report
Ressources de modèles (miroirs communautaires) : Comfy-Org/Qwen-Image_ComfyUI ｜ ModelScope - Comfy-Org/Qwen-Image_ComfyUI
Lecture complémentaire (tutoriel) : Documentation ComfyUI · Flux de travail natif Qwen-Image

Points forts du modèle

Versions actuellement proposées dans ComfyUI

Performances

Sources et lectures complémentaires

Commentaires