Guía completa de uso de flujos de trabajo Wan2.2 ComfyUI, versiones oficiales y comunitarias (Kijai, GGUF)
Resumen del tutorial
Este tutorial presentará de manera integral los diversos métodos de implementación y uso del modelo de generación de video Wan2.2 en ComfyUI. Wan2.2 es una nueva generación de modelo multimodal de generación lanzado por Alibaba Cloud, que adopta una arquitectura innovadora MoE (Mezcla de Expertos) con características principales como control estético de nivel cinematográfico, generación de movimiento complejo a gran escala y cumplimiento semántico preciso.
Versiones y contenidos cubiertos en este tutorial
Versiones completadas:
- ✅ Versión oficial nativa de ComfyUI - Flujo de trabajo completo proporcionado por el oficial de ComfyOrg
- ✅ Versión híbrida Wan2.2 5B - Modelo ligero que soporta texto a video e imagen a video
- ✅ Versión texto a video Wan2.2 14B - Generación de video de alta calidad a partir de texto
- ✅ Versión imagen a video Wan2.2 14B - Imagen estática a video dinámico
- ✅ Generación de video de primer y último fotograma Wan2.2 14B - Generación de video basada en fotogramas inicial y final
Versiones en preparación:
- 🔄 Versión Kijai WanVideoWrapper
- 🔄 Versión cuantizada GGUF - Versión optimizada para dispositivos de baja configuración
- 🔄 Lightx2v 4steps LoRA - Solución de optimización de generación rápida
Acerca del modelo de generación de video Wan2.2
Wan2.2 adopta una arquitectura innovadora MoE (Mezcla de Expertos), compuesta por modelos expertos de alto ruido y modelos expertos de bajo ruido, que pueden dividir los modelos expertos según los pasos de tiempo de desruido para generar contenido de video de mayor calidad.
Ventajas principales:
- Control estético de nivel cinematográfico: Lenguaje de lente profesional, soporta control visual multidimensional de iluminación, color, composición, etc.
- Movimiento complejo a gran escala: Reproduce fluidamente varios movimientos complejos, fortaleciendo la controlabilidad y naturalidad del movimiento
- Cumplimiento semántico preciso: Comprensión de escenas complejas, generación de múltiples objetos, mejor restauración de la intención creativa
- Tecnología de compresión eficiente: VAE de alta relación de compresión de la versión 5B, optimización de memoria, soporta entrenamiento híbrido
La serie de modelos Wan2.2 se basa en la licencia de código abierto Apache2.0, soportando uso comercial. La licencia Apache2.0 le permite usar, modificar y distribuir libremente estos modelos, incluidos fines comerciales, siempre que conserve el aviso de copyright original y el texto de la licencia.
Resumen de versiones del modelo de código abierto Wan2.2
Tipo de modelo | Nombre del modelo | Parámetros | Función principal | Repositorio del modelo |
---|---|---|---|---|
Modelo híbrido | Wan2.2-TI2V-5B | 5B | Versión híbrida que soporta texto a video e imagen a video, un solo modelo satisface dos requisitos de tareas principales | 🤗 Wan2.2-TI2V-5B |
Imagen a video | Wan2.2-I2V-A14B | 14B | Convierte imágenes estáticas en videos dinámicos, manteniendo la consistencia del contenido y procesos dinámicos fluidos | 🤗 Wan2.2-I2V-A14B |
Texto a video | Wan2.2-T2V-A14B | 14B | Genera videos de alta calidad a partir de descripciones de texto, con control estético de nivel cinematográfico y cumplimiento semántico preciso | 🤗 Wan2.2-T2V-A14B |
Guía de indicaciones Wan2.2 - Guía detallada de redacción de indicaciones proporcionada por Wan
Recursos oficiales de ComfyUI
Reproducción en vivo oficial de ComfyOrg
YouTube de ComfyOrg tiene explicaciones detalladas sobre el uso de Wan2.2 en ComfyUI:
Guía de uso del flujo de trabajo de la versión oficial nativa de Wan2.2 ComfyUI
Descripción de la versión
La versión oficial nativa de ComfyUI es proporcionada por el equipo de ComfyOrg, utilizando archivos de modelo reempaquetados de 🤗 Comfy-Org/Wan_2.2_ComfyUI_Repackaged para garantizar la mejor compatibilidad con ComfyUI.
1. Flujo de trabajo de la versión híbrida Wan2.2 TI2V 5B
La versión Wan2.2 5B combinada con la función de descarga nativa de ComfyUI puede adaptarse bien a 8GB de VRAM, siendo una opción ideal para usuarios principiantes.
Método de obtención del flujo de trabajo
Actualice su ComfyUI a la última versión y encuentre “Wan2.2 5B video generation” a través del menú Flujo de trabajo
-> Explorar plantillas
-> Video
para cargar el flujo de trabajo
Descargar flujo de trabajo en formato JSON
Descarga de archivos de modelo
Modelo de difusión
VAE
Codificador de texto
ComfyUI/
├───📂 models/
│ ├───📂 diffusion_models/
│ │ └───wan2.2_ti2v_5B_fp16.safetensors
│ ├───📂 text_encoders/
│ │ └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors
│ └───📂 vae/
│ └── wan2.2_vae.safetensors
Pasos detallados de operación
- Asegúrese de que el nodo
Load Diffusion Model
cargue el modelowan2.2_ti2v_5B_fp16.safetensors
- Asegúrese de que el nodo
Load CLIP
cargue el modeloumt5_xxl_fp8_e4m3fn_scaled.safetensors
- Asegúrese de que el nodo
Load VAE
cargue el modelowan2.2_vae.safetensors
- (Opcional) Si necesita realizar imagen a video, puede usar el atajo Ctrl+B para habilitar el nodo
Load image
para cargar imágenes - (Opcional) En
Wan22ImageToVideoLatent
puede ajustar la configuración de tamaño y el ajuste del número total de fotogramas del videolength
- (Opcional) Si necesita modificar las indicaciones (positivas y negativas), modifíquelas en el nodo
CLIP Text Encoder
número5
- Haga clic en el botón
Run
, o use el atajoCtrl(cmd) + Enter
para ejecutar la generación de video
2. Flujo de trabajo texto a video Wan2.2 14B T2V
Método de obtención del flujo de trabajo
Actualice su ComfyUI a la última versión y encuentre “Wan2.2 14B T2V” a través del menú Flujo de trabajo
-> Explorar plantillas
-> Video
O actualice su ComfyUI a la última versión, luego descargue el flujo de trabajo a continuación y arrástrelo a ComfyUI para cargar el flujo de trabajo
Descarga de archivos de modelo
Modelo de difusión
VAE
Codificador de texto
ComfyUI/
├───📂 models/
│ ├───📂 diffusion_models/
│ │ ├─── wan2.2_t2v_low_noise_14B_fp8_scaled.safetensors
│ │ └─── wan2.2_t2v_high_noise_14B_fp8_scaled.safetensors
│ ├───📂 text_encoders/
│ │ └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors
│ └───📂 vae/
│ └── wan_2.1_vae.safetensors
Pasos detallados de operación
- Asegúrese de que el primer nodo
Load Diffusion Model
cargue el modelowan2.2_t2v_high_noise_14B_fp8_scaled.safetensors
- Asegúrese de que el segundo nodo
Load Diffusion Model
cargue el modelowan2.2_t2v_low_noise_14B_fp8_scaled.safetensors
- Asegúrese de que el nodo
Load CLIP
cargue el modeloumt5_xxl_fp8_e4m3fn_scaled.safetensors
- Asegúrese de que el nodo
Load VAE
cargue el modelowan_2.1_vae.safetensors
- (Opcional) En
EmptyHunyuanLatentVideo
puede ajustar la configuración de tamaño y el ajuste del número total de fotogramas del videolength
- Si necesita modificar las indicaciones (positivas y negativas), modifíquelas en el nodo
CLIP Text Encoder
número6
- Haga clic en el botón
Run
, o use el atajoCtrl(cmd) + Enter
para ejecutar la generación de video
3. Flujo de trabajo imagen a video Wan2.2 14B I2V
Método de obtención del flujo de trabajo
Actualice su ComfyUI a la última versión y encuentre “Wan2.2 14B I2V” a través del menú Flujo de trabajo
-> Explorar plantillas
-> Video
para cargar el flujo de trabajo
O actualice su ComfyUI a la última versión, luego descargue el flujo de trabajo a continuación y arrástrelo a ComfyUI para cargar el flujo de trabajo
Puede usar la siguiente imagen como entrada
Descarga de archivos de modelo
Modelo de difusión
VAE
Codificador de texto
ComfyUI/
├───📂 models/
│ ├───📂 diffusion_models/
│ │ ├─── wan2.2_i2v_low_noise_14B_fp16.safetensors
│ │ └─── wan2.2_i2v_high_noise_14B_fp16.safetensors
│ ├───📂 text_encoders/
│ │ └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors
│ └───📂 vae/
│ └── wan_2.1_vae.safetensors
Pasos detallados de operación
- Asegúrese de que el primer nodo
Load Diffusion Model
cargue el modelowan2.2_t2v_high_noise_14B_fp8_scaled.safetensors
- Asegúrese de que el segundo nodo
Load Diffusion Model
cargue el modelowan2.2_t2v_low_noise_14B_fp8_scaled.safetensors
- Asegúrese de que el nodo
Load CLIP
cargue el modeloumt5_xxl_fp8_e4m3fn_scaled.safetensors
- Asegúrese de que el nodo
Load VAE
cargue el modelowan_2.1_vae.safetensors
- Cargue la imagen como fotograma inicial en el nodo
Load Image
- Si necesita modificar las indicaciones (positivas y negativas), modifíquelas en el nodo
CLIP Text Encoder
número6
- (Opcional) En
EmptyHunyuanLatentVideo
puede ajustar la configuración de tamaño y el ajuste del número total de fotogramas del videolength
- Haga clic en el botón
Run
, o use el atajoCtrl(cmd) + Enter
para ejecutar la generación de video
4. Flujo de trabajo de generación de video de primer y último fotograma Wan2.2 14B FLF2V
El flujo de trabajo de primer y último fotograma utiliza exactamente la misma ubicación de modelo que la sección I2V
Obtención de flujo de trabajo y materiales
Descargue el video o el flujo de trabajo en formato JSON a continuación y ábralo en ComfyUI
Descargue los materiales a continuación como entrada
Pasos detallados de operación
- Cargue la imagen como fotograma inicial en el primer nodo
Load Image
- Cargue la imagen como fotograma inicial en el segundo nodo
Load Image
- Modifique la configuración de tamaño en
WanFirstLastFrameToVideo
- El flujo de trabajo establece por defecto un tamaño relativamente pequeño para evitar que los usuarios con poca VRAM consuman demasiados recursos
- Si tiene suficiente VRAM, puede probar un tamaño de aproximadamente 720P
- Escriba indicaciones apropiadas según sus fotogramas inicial y final
- Haga clic en el botón
Run
, o use el atajoCtrl(cmd) + Enter
para ejecutar la generación de video
Flujo de trabajo ComfyUI Wan2.2 Kijai WanVideoWrapper
Este contenido está en preparación y se actualizará en un futuro próximo.
Esta parte del tutorial presentará el método conveniente utilizando Kijai/ComfyUI-WanVideoWrapper.
Repositorio de modelo relacionado: https://huggingface.co/Kijai/WanVideo_comfy_fp8_scaled
Flujo de trabajo ComfyUI versión cuantizada GGUF Wan2.2
Este contenido está en preparación y se actualizará en un futuro próximo.
La versión GGUF es adecuada para usuarios con VRAM limitada, proporcionando los siguientes recursos:
Nodos personalizados relacionados: City96/ComfyUI-GGUF
Instrucciones de uso de Lightx2v 4steps LoRA
Este contenido está en preparación y se actualizará en un futuro próximo.
Lightx2v proporciona una solución de optimización de generación rápida: