Qwen-Image obtiene soporte nativo en ComfyUI
Qwen-Image es un modelo de generación de imágenes MMDiT con 20 mil millones de parámetros, orientado al renderizado de texto complejo y la edición fina. Está publicado como software libre bajo licencia Apache-2.0. Recientemente ha obtenido compatibilidad nativa en ComfyUI, por lo que se puede probar directamente a través de plantillas.
Enlaces relacionados:
Puntos destacados del modelo
A partir de la página del proyecto, el modelo destaca en escenarios con texto y consistencia de edición, y ofrece capacidades generales de generación y comprensión:
- Renderizado de texto complejo: preserva detalles tipográficos y coherencia de maquetación en varios idiomas (por ejemplo, chino e inglés); útil para imágenes con títulos, lemas y estructuras de maquetación
- Edición precisa: soporta transferencia de estilo, inserción/eliminación de objetos, mejora de detalles, edición de texto dentro de la imagen e incluso ajuste de pose humana
- Capacidad de generación general: desde fotorrealismo hasta impresionismo, anime o diseño minimalista, con adaptación fluida a distintos estilos creativos
- Tareas de comprensión: detección de objetos, segmentación semántica, estimación de profundidad y bordes (Canny), síntesis de nuevas vistas y superresolución
- Ecosistema y extensibilidad: actualizaciones del proyecto indican soporte para diversos LoRA (p. ej., MajicBeauty) y ejemplos de despliegue local multi‑GPU con gestión de colas para cargas concurrentes
Versiones actualmente disponibles en ComfyUI
- Qwen-Image_bf16 (≈ 40.9 GB)
- Qwen-Image_fp8 (≈ 20.4 GB)
- Versiones destiladas no oficiales (menos pasos de inferencia)
Estos recursos de modelo están disponibles en: Hugging Face - Comfy-Org/Qwen-Image_ComfyUI | ModelScope - Comfy-Org/Qwen-Image_ComfyUI
Rendimiento
A continuación, los datos medidos por ComfyUI Wiki al preparar la documentación oficial, utilizando una RTX 4090D de 24 GB:
Qwen-Image_fp8
- VRAM: 86%
- Tiempo de generación: 94 s (primera ejecución), 71 s (segunda)
Qwen-Image_bf16
- VRAM: 96%
- Tiempo de generación: 295 s (primera ejecución), 131 s (segunda)
Fuentes y lecturas adicionales
- Página del proyecto (características, noticias y despliegue): Qwen-Image GitHub
- Informe técnico (arXiv): Qwen-Image Technical Report
- Recursos de modelos (espejos de la comunidad): Comfy-Org/Qwen-Image_ComfyUI | ModelScope - Comfy-Org/Qwen-Image_ComfyUI
- Lectura adicional (tutorial): Documentación de ComfyUI · Flujo de trabajo nativo de Qwen-Image