Qwen-Image obtiene soporte nativo en ComfyUI

Qwen-Image es un modelo de generación de imágenes MMDiT con 20 mil millones de parámetros, orientado al renderizado de texto complejo y la edición fina. Está publicado como software libre bajo licencia Apache-2.0. Recientemente ha obtenido compatibilidad nativa en ComfyUI, por lo que se puede probar directamente a través de plantillas.

Enlaces relacionados:

Puntos destacados del modelo

A partir de la página del proyecto, el modelo destaca en escenarios con texto y consistencia de edición, y ofrece capacidades generales de generación y comprensión:

Renderizado de texto complejo: preserva detalles tipográficos y coherencia de maquetación en varios idiomas (por ejemplo, chino e inglés); útil para imágenes con títulos, lemas y estructuras de maquetación
Edición precisa: soporta transferencia de estilo, inserción/eliminación de objetos, mejora de detalles, edición de texto dentro de la imagen e incluso ajuste de pose humana
Capacidad de generación general: desde fotorrealismo hasta impresionismo, anime o diseño minimalista, con adaptación fluida a distintos estilos creativos
Tareas de comprensión: detección de objetos, segmentación semántica, estimación de profundidad y bordes (Canny), síntesis de nuevas vistas y superresolución
Ecosistema y extensibilidad: actualizaciones del proyecto indican soporte para diversos LoRA (p. ej., MajicBeauty) y ejemplos de despliegue local multi‑GPU con gestión de colas para cargas concurrentes

Versiones actualmente disponibles en ComfyUI

Qwen-Image_bf16 (≈ 40.9 GB)
Qwen-Image_fp8 (≈ 20.4 GB)
Versiones destiladas no oficiales (menos pasos de inferencia)

Estos recursos de modelo están disponibles en: Hugging Face - Comfy-Org/Qwen-Image_ComfyUI ｜ ModelScope - Comfy-Org/Qwen-Image_ComfyUI

Rendimiento

A continuación, los datos medidos por ComfyUI Wiki al preparar la documentación oficial, utilizando una RTX 4090D de 24 GB:

Qwen-Image_fp8

VRAM: 86%
Tiempo de generación: 94 s (primera ejecución), 71 s (segunda)

Qwen-Image_bf16

VRAM: 96%
Tiempo de generación: 295 s (primera ejecución), 131 s (segunda)

Fuentes y lecturas adicionales

Página del proyecto (características, noticias y despliegue): Qwen-Image GitHub
Informe técnico (arXiv): Qwen-Image Technical Report
Recursos de modelos (espejos de la comunidad): Comfy-Org/Qwen-Image_ComfyUI ｜ ModelScope - Comfy-Org/Qwen-Image_ComfyUI
Lectura adicional (tutorial): Documentación de ComfyUI · Flujo de trabajo nativo de Qwen-Image

Puntos destacados del modelo

Versiones actualmente disponibles en ComfyUI

Rendimiento

Fuentes y lecturas adicionales

Comentarios