Skip to content
ComfyUI Wiki
Ayuda a Construir una Mejor Base de Conocimientos de ComfyUI Conviértete en Patrocinador

Guía Completa de Flujos de Trabajo de Qwen-Image ComfyUI Nativo, GGUF y Nunchaku

Qwen-Image es un modelo base de generación de imágenes desarrollado por el equipo Tongyi Lab de Alibaba, que utiliza una arquitectura MMDiT (Transformador de Difusión Multimodal) de 20 mil millones de parámetros, publicado como código abierto bajo la licencia Apache 2.0. El modelo demuestra ventajas técnicas únicas en el campo de la generación de imágenes, destacando especialmente en la representación de texto y la edición de imágenes.

Características Principales:

  • Capacidad de Representación de Texto Multilingüe: El modelo puede generar con precisión imágenes que contienen inglés, chino, coreano, japonés y otros idiomas, con texto claro y legible que se armoniza con el estilo de la imagen
  • Amplia Gama de Estilos Artísticos: Desde estilos realistas hasta creaciones artísticas, desde estilos de anime hasta diseño moderno, el modelo puede cambiar flexiblemente entre diferentes estilos visuales según las indicaciones
  • Funcionalidad de Edición de Imágenes Precisa: Soporta modificaciones locales, transformaciones de estilo y adiciones de contenido a imágenes existentes, manteniendo la consistencia visual general

Recursos Relacionados:

Loading...

Guía de Flujo de Trabajo Nativo de Qwen-Image ComfyUI

En el flujo de trabajo adjunto a este documento se utilizan tres modelos diferentes:

  1. Modelo original de Qwen-Image fp8_e4m3fn
  2. Versión acelerada de 8 pasos: Modelo original de Qwen-Image fp8_e4m3fn usando LoRA de 8 pasos lightx2v
  3. Versión destilada: Modelo destilado de Qwen-Image fp8_e4m3fn

Referencia de Uso de Memoria VRAM GPU: RTX4090D 24GB

Modelo UtilizadoUso de VRAMPrimera GeneraciónSegunda Generación
fp8_e4m3fn86%≈ 94s≈ 71s
fp8_e4m3fn usando LoRA de 8 pasos lightx2v86%≈ 55s≈ 34s
Versión destilada fp8_e4m3fn86%≈ 69s≈ 36s

1. Archivo de Flujo de Trabajo

Después de actualizar ComfyUI, puedes encontrar el archivo de flujo de trabajo en las plantillas, o arrastrar el flujo de trabajo a continuación a ComfyUI para cargarlo Flujo de Trabajo de Qwen-image de Texto a Imagen

Descargar Flujo de Trabajo Oficial en Formato JSON

Versión Destilada

2. Descarga de Modelos

Versiones que puedes encontrar en el repositorio de ComfyOrg

  • Qwen-Image_bf16 (40.9 GB)
  • Qwen-Image_fp8 (20.4 GB)
  • Versión destilada (no oficial, solo 15 pasos)

Todos los modelos se pueden encontrar en Huggingface o ModelScope

Modelo de difusión

Qwen_image_distill

  • El autor original de la versión destilada recomienda 15 pasos cfg 1.0
  • Las pruebas muestran que esta versión destilada funciona bien con 10 pasos cfg 1.0; elija euler o res_multistep según el tipo de imagen que desee

LoRA

Codificador de texto

VAE

Ubicación de almacenamiento de modelos

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 diffusion_models/
│   │   ├── qwen_image_fp8_e4m3fn.safetensors
│   │   └── qwen_image_distill_full_fp8_e4m3fn.safetensors ## Versión destilada
│   ├── 📂 loras/
│   │   └── Qwen-Image-Lightning-8steps-V1.0.safetensors   ## Modelo LoRA de aceleración de 8 pasos
│   ├── 📂 vae/
│   │   └── qwen_image_vae.safetensors
│   └── 📂 text_encoders/
│       └── qwen_2.5_vl_7b_fp8_scaled.safetensors

3. Completar el Flujo de Trabajo Paso a Paso

Diagrama de Pasos

  1. Asegúrese de que el nodo Load Diffusion Model cargue qwen_image_fp8_e4m3fn.safetensors
  2. Asegúrese de que el nodo Load CLIP cargue qwen_2.5_vl_7b_fp8_scaled.safetensors
  3. Asegúrese de que el nodo Load VAE cargue qwen_image_vae.safetensors
  4. Asegúrese de que las dimensiones de la imagen estén configuradas en el nodo EmptySD3LatentImage
  5. Configure los indicadores en el nodo CLIP Text Encoder; actualmente probado para soportar al menos: inglés, chino, coreano, japonés, italiano, etc.
  6. Para habilitar el LoRA de aceleración de 8 pasos lightx2v, selecciónelo y use Ctrl + B para habilitar el nodo, y modifique la configuración de Ksampler según los parámetros en la posición 8
  7. Haga clic en el botón Queue, o use el atajo Ctrl(cmd) + Enter para ejecutar el flujo de trabajo
  8. Configuración de parámetros para KSampler correspondiente a diferentes versiones de modelos y flujos de trabajo

La versión destilada del modelo y el LoRA de aceleración de 8 pasos lightx2v parecen no poder usarse simultáneamente; puede probar parámetros de combinación específicos para verificar si el uso combinado es factible

Flujo de Trabajo Qwen-Image Versión GGUF ComfyUI

La versión GGUF es más amigable para usuarios con poca VRAM, y en ciertas configuraciones de pesos, solo necesita aproximadamente 8GB de VRAM para ejecutar Qwen-Image

Referencia de Uso de VRAM:

Flujo de TrabajoUso de VRAMPrimera GeneraciónGeneraciones Subsiguientes
qwen-image-Q4_K_S.gguf56%≈ 135s≈ 77s
Con LoRA de 8 pasos56%≈ 100s≈ 45s

Dirección del modelo: Qwen-Image-gguf

1. Actualizar o Instalar Nodos Personalizados

Usar la versión GGUF requiere que instale o actualice el complemento ComfyUI-GGUF

Consulte Cómo Instalar Nodos Personalizados de ComfyUI, o busque e instale a través del Administrador

2. Descarga de Flujo de Trabajo

Flujo de Trabajo Qwen-Image GGUF

3. Descarga de Modelos

La versión GGUF solo utiliza el modelo de difusión diferente de los demás

Visite https://huggingface.co/city96/Qwen-Image-gguf para descargar cualquier peso; normalmente, los archivos de mayor tamaño significan mejor calidad pero también requieren más VRAM. En este tutorial, usaré la siguiente versión:

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 diffusion_models/
│   │   └── qwen-image-Q4_K_S.gguf # O cualquier otra versión que elija

3. Completar el Flujo de Trabajo Paso a Paso

Diagrama de Pasos

  1. Asegúrese de que el nodo Unet Loader(GGUF) cargue qwen-image-Q4_K_S.gguf o cualquier otra versión que haya descargado
    • Asegúrese de que ComfyUI-GGUF esté instalado y actualizado
  2. Para LightX2V 8Steps LoRA, no está habilitado por defecto; puede seleccionarlo y usar Ctrl+B para habilitar el nodo
  3. Si el LoRA de 8 pasos no está habilitado, los pasos predeterminados son 20; si habilita el LoRA de 8 pasos, configúrelo a 8
  4. Aquí está la referencia para configurar los pasos correspondientes
  5. Haga clic en el botón Queue, o use el atajo Ctrl(cmd) + Enter para ejecutar el flujo de trabajo

Flujo de Trabajo Versión Nunchaku de Qwen-Image

Dirección del modelo: nunchaku-qwen-image Dirección del nodo personalizado: https://github.com/nunchaku-tech/ComfyUI-nunchaku

Soporte de Nunchaku pendiente