Guía Completa de Flujos de Trabajo de Qwen-Image ComfyUI Nativo, GGUF y Nunchaku
Qwen-Image es un modelo base de generación de imágenes desarrollado por el equipo Tongyi Lab de Alibaba, que utiliza una arquitectura MMDiT (Transformador de Difusión Multimodal) de 20 mil millones de parámetros, publicado como código abierto bajo la licencia Apache 2.0. El modelo demuestra ventajas técnicas únicas en el campo de la generación de imágenes, destacando especialmente en la representación de texto y la edición de imágenes.
Características Principales:
- Capacidad de Representación de Texto Multilingüe: El modelo puede generar con precisión imágenes que contienen inglés, chino, coreano, japonés y otros idiomas, con texto claro y legible que se armoniza con el estilo de la imagen
- Amplia Gama de Estilos Artísticos: Desde estilos realistas hasta creaciones artísticas, desde estilos de anime hasta diseño moderno, el modelo puede cambiar flexiblemente entre diferentes estilos visuales según las indicaciones
- Funcionalidad de Edición de Imágenes Precisa: Soporta modificaciones locales, transformaciones de estilo y adiciones de contenido a imágenes existentes, manteniendo la consistencia visual general
Recursos Relacionados:
- Dirección del Proyecto en GitHub
- Página del Modelo en Hugging Face
- Repositorio de Modelos ModelScope
Guía de Flujo de Trabajo Nativo de Qwen-Image ComfyUI
En el flujo de trabajo adjunto a este documento se utilizan tres modelos diferentes:
- Modelo original de Qwen-Image fp8_e4m3fn
- Versión acelerada de 8 pasos: Modelo original de Qwen-Image fp8_e4m3fn usando LoRA de 8 pasos lightx2v
- Versión destilada: Modelo destilado de Qwen-Image fp8_e4m3fn
Referencia de Uso de Memoria VRAM GPU: RTX4090D 24GB
Modelo Utilizado | Uso de VRAM | Primera Generación | Segunda Generación |
---|---|---|---|
fp8_e4m3fn | 86% | ≈ 94s | ≈ 71s |
fp8_e4m3fn usando LoRA de 8 pasos lightx2v | 86% | ≈ 55s | ≈ 34s |
Versión destilada fp8_e4m3fn | 86% | ≈ 69s | ≈ 36s |
1. Archivo de Flujo de Trabajo
Después de actualizar ComfyUI, puedes encontrar el archivo de flujo de trabajo en las plantillas, o arrastrar el flujo de trabajo a continuación a ComfyUI para cargarlo
Descargar Flujo de Trabajo Oficial en Formato JSON
Versión Destilada
2. Descarga de Modelos
Versiones que puedes encontrar en el repositorio de ComfyOrg
- Qwen-Image_bf16 (40.9 GB)
- Qwen-Image_fp8 (20.4 GB)
- Versión destilada (no oficial, solo 15 pasos)
Todos los modelos se pueden encontrar en Huggingface o ModelScope
Modelo de difusión
Qwen_image_distill
- El autor original de la versión destilada recomienda 15 pasos cfg 1.0
- Las pruebas muestran que esta versión destilada funciona bien con 10 pasos cfg 1.0; elija euler o res_multistep según el tipo de imagen que desee
LoRA
Codificador de texto
VAE
Ubicación de almacenamiento de modelos
📂 ComfyUI/
├── 📂 models/
│ ├── 📂 diffusion_models/
│ │ ├── qwen_image_fp8_e4m3fn.safetensors
│ │ └── qwen_image_distill_full_fp8_e4m3fn.safetensors ## Versión destilada
│ ├── 📂 loras/
│ │ └── Qwen-Image-Lightning-8steps-V1.0.safetensors ## Modelo LoRA de aceleración de 8 pasos
│ ├── 📂 vae/
│ │ └── qwen_image_vae.safetensors
│ └── 📂 text_encoders/
│ └── qwen_2.5_vl_7b_fp8_scaled.safetensors
3. Completar el Flujo de Trabajo Paso a Paso
- Asegúrese de que el nodo
Load Diffusion Model
cargueqwen_image_fp8_e4m3fn.safetensors
- Asegúrese de que el nodo
Load CLIP
cargueqwen_2.5_vl_7b_fp8_scaled.safetensors
- Asegúrese de que el nodo
Load VAE
cargueqwen_image_vae.safetensors
- Asegúrese de que las dimensiones de la imagen estén configuradas en el nodo
EmptySD3LatentImage
- Configure los indicadores en el nodo
CLIP Text Encoder
; actualmente probado para soportar al menos: inglés, chino, coreano, japonés, italiano, etc. - Para habilitar el LoRA de aceleración de 8 pasos lightx2v, selecciónelo y use
Ctrl + B
para habilitar el nodo, y modifique la configuración de Ksampler según los parámetros en la posición8
- Haga clic en el botón
Queue
, o use el atajoCtrl(cmd) + Enter
para ejecutar el flujo de trabajo - Configuración de parámetros para KSampler correspondiente a diferentes versiones de modelos y flujos de trabajo
La versión destilada del modelo y el LoRA de aceleración de 8 pasos lightx2v parecen no poder usarse simultáneamente; puede probar parámetros de combinación específicos para verificar si el uso combinado es factible
Flujo de Trabajo Qwen-Image Versión GGUF ComfyUI
La versión GGUF es más amigable para usuarios con poca VRAM, y en ciertas configuraciones de pesos, solo necesita aproximadamente 8GB de VRAM para ejecutar Qwen-Image
Referencia de Uso de VRAM:
Flujo de Trabajo | Uso de VRAM | Primera Generación | Generaciones Subsiguientes |
---|---|---|---|
qwen-image-Q4_K_S.gguf | 56% | ≈ 135s | ≈ 77s |
Con LoRA de 8 pasos | 56% | ≈ 100s | ≈ 45s |
Dirección del modelo: Qwen-Image-gguf
1. Actualizar o Instalar Nodos Personalizados
Usar la versión GGUF requiere que instale o actualice el complemento ComfyUI-GGUF
Consulte Cómo Instalar Nodos Personalizados de ComfyUI, o busque e instale a través del Administrador
2. Descarga de Flujo de Trabajo
3. Descarga de Modelos
La versión GGUF solo utiliza el modelo de difusión diferente de los demás
Visite https://huggingface.co/city96/Qwen-Image-gguf para descargar cualquier peso; normalmente, los archivos de mayor tamaño significan mejor calidad pero también requieren más VRAM. En este tutorial, usaré la siguiente versión:
📂 ComfyUI/
├── 📂 models/
│ ├── 📂 diffusion_models/
│ │ └── qwen-image-Q4_K_S.gguf # O cualquier otra versión que elija
3. Completar el Flujo de Trabajo Paso a Paso
- Asegúrese de que el nodo
Unet Loader(GGUF)
cargueqwen-image-Q4_K_S.gguf
o cualquier otra versión que haya descargado- Asegúrese de que ComfyUI-GGUF esté instalado y actualizado
- Para
LightX2V 8Steps LoRA
, no está habilitado por defecto; puede seleccionarlo y usar Ctrl+B para habilitar el nodo - Si el LoRA de 8 pasos no está habilitado, los pasos predeterminados son 20; si habilita el LoRA de 8 pasos, configúrelo a 8
- Aquí está la referencia para configurar los pasos correspondientes
- Haga clic en el botón
Queue
, o use el atajoCtrl(cmd) + Enter
para ejecutar el flujo de trabajo
Flujo de Trabajo Versión Nunchaku de Qwen-Image
Dirección del modelo: nunchaku-qwen-image Dirección del nodo personalizado: https://github.com/nunchaku-tech/ComfyUI-nunchaku
Soporte de Nunchaku pendiente