OpenMOSS lanza MOVA - modelo de generación sincronizada de video y audio de código abierto

29/01/2026

Guía completa de uso de flujos de trabajo Wan2.2 ComfyUI, versiones oficiales y comunitarias (Kijai, GGUF)

Wan2.2

Resumen del tutorial

Este tutorial presentará de manera integral los diversos métodos de implementación y uso del modelo de generación de video Wan2.2 en ComfyUI. Wan2.2 es una nueva generación de modelo multimodal de generación lanzado por Alibaba Cloud, que adopta una arquitectura innovadora MoE (Mezcla de Expertos) con características principales como control estético de nivel cinematográfico, generación de movimiento complejo a gran escala y cumplimiento semántico preciso.

Versiones y contenidos cubiertos en este tutorial

Versiones completadas:

✅ Versión oficial nativa de ComfyUI - Flujo de trabajo completo proporcionado por el oficial de ComfyOrg
✅ Versión híbrida Wan2.2 5B - Modelo ligero que soporta texto a video e imagen a video
✅ Versión texto a video Wan2.2 14B - Generación de video de alta calidad a partir de texto
✅ Versión imagen a video Wan2.2 14B - Imagen estática a video dinámico
✅ Generación de video de primer y último fotograma Wan2.2 14B - Generación de video basada en fotogramas inicial y final

Versiones en preparación:

🔄 Versión Kijai WanVideoWrapper
🔄 Versión cuantizada GGUF - Versión optimizada para dispositivos de baja configuración
🔄 Lightx2v 4steps LoRA - Solución de optimización de generación rápida

Acerca del modelo de generación de video Wan2.2

Wan2.2 adopta una arquitectura innovadora MoE (Mezcla de Expertos), compuesta por modelos expertos de alto ruido y modelos expertos de bajo ruido, que pueden dividir los modelos expertos según los pasos de tiempo de desruido para generar contenido de video de mayor calidad.

Ventajas principales:

Control estético de nivel cinematográfico: Lenguaje de lente profesional, soporta control visual multidimensional de iluminación, color, composición, etc.
Movimiento complejo a gran escala: Reproduce fluidamente varios movimientos complejos, fortaleciendo la controlabilidad y naturalidad del movimiento
Cumplimiento semántico preciso: Comprensión de escenas complejas, generación de múltiples objetos, mejor restauración de la intención creativa
Tecnología de compresión eficiente: VAE de alta relación de compresión de la versión 5B, optimización de memoria, soporta entrenamiento híbrido

La serie de modelos Wan2.2 se basa en la licencia de código abierto Apache2.0, soportando uso comercial. La licencia Apache2.0 le permite usar, modificar y distribuir libremente estos modelos, incluidos fines comerciales, siempre que conserve el aviso de copyright original y el texto de la licencia.

Resumen de versiones del modelo de código abierto Wan2.2

Tipo de modelo	Nombre del modelo	Parámetros	Función principal	Repositorio del modelo
Modelo híbrido	Wan2.2-TI2V-5B	5B	Versión híbrida que soporta texto a video e imagen a video, un solo modelo satisface dos requisitos de tareas principales	🤗 Wan2.2-TI2V-5B
Imagen a video	Wan2.2-I2V-A14B	14B	Convierte imágenes estáticas en videos dinámicos, manteniendo la consistencia del contenido y procesos dinámicos fluidos	🤗 Wan2.2-I2V-A14B
Texto a video	Wan2.2-T2V-A14B	14B	Genera videos de alta calidad a partir de descripciones de texto, con control estético de nivel cinematográfico y cumplimiento semántico preciso	🤗 Wan2.2-T2V-A14B

Guía de indicaciones Wan2.2 - Guía detallada de redacción de indicaciones proporcionada por Wan

Recursos oficiales de ComfyUI

Reproducción en vivo oficial de ComfyOrg

YouTube de ComfyOrg tiene explicaciones detalladas sobre el uso de Wan2.2 en ComfyUI:

Reproducción en vivo de ComfyUI Wan2.2

ComfyUI Wan2.2 en profundidad

ComfyUI Wan2.2 en profundidad #2

Guía de uso del flujo de trabajo de la versión oficial nativa de Wan2.2 ComfyUI

Descripción de la versión

La versión oficial nativa de ComfyUI es proporcionada por el equipo de ComfyOrg, utilizando archivos de modelo reempaquetados de 🤗 Comfy-Org/Wan_2.2_ComfyUI_Repackaged para garantizar la mejor compatibilidad con ComfyUI.

Plantilla Wan2.2

1. Flujo de trabajo de la versión híbrida Wan2.2 TI2V 5B

💡

La versión Wan2.2 5B combinada con la función de descarga nativa de ComfyUI puede adaptarse bien a 8GB de VRAM, siendo una opción ideal para usuarios principiantes.

Método de obtención del flujo de trabajo

Actualice su ComfyUI a la última versión y encuentre “Wan2.2 5B video generation” a través del menú Flujo de trabajo -> Explorar plantillas -> Video para cargar el flujo de trabajo

Descargar flujo de trabajo en formato JSON

Descarga de archivos de modelo

Modelo de difusión

wan2.2_ti2v_5B_fp16.safetensors

VAE

wan2.2_vae.safetensors

Codificador de texto

umt5_xxl_fp8_e4m3fn_scaled.safetensors

ComfyUI/
├───📂 models/
│   ├───📂 diffusion_models/
│   │   └───wan2.2_ti2v_5B_fp16.safetensors
│   ├───📂 text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors 
│   └───📂 vae/
│       └── wan2.2_vae.safetensors

Pasos detallados de operación

Diagrama de pasos

Asegúrese de que el nodo Load Diffusion Model cargue el modelo wan2.2_ti2v_5B_fp16.safetensors
Asegúrese de que el nodo Load CLIP cargue el modelo umt5_xxl_fp8_e4m3fn_scaled.safetensors
Asegúrese de que el nodo Load VAE cargue el modelo wan2.2_vae.safetensors
(Opcional) Si necesita realizar imagen a video, puede usar el atajo Ctrl+B para habilitar el nodo Load image para cargar imágenes
(Opcional) En Wan22ImageToVideoLatent puede ajustar la configuración de tamaño y el ajuste del número total de fotogramas del video length
(Opcional) Si necesita modificar las indicaciones (positivas y negativas), modifíquelas en el nodo CLIP Text Encoder número 5
Haga clic en el botón Run, o use el atajo Ctrl(cmd) + Enter para ejecutar la generación de video

2. Flujo de trabajo texto a video Wan2.2 14B T2V

Método de obtención del flujo de trabajo

Actualice su ComfyUI a la última versión y encuentre “Wan2.2 14B T2V” a través del menú Flujo de trabajo -> Explorar plantillas -> Video

O actualice su ComfyUI a la última versión, luego descargue el flujo de trabajo a continuación y arrástrelo a ComfyUI para cargar el flujo de trabajo

Descarga de archivos de modelo

Modelo de difusión

VAE

wan_2.1_vae.safetensors

Codificador de texto

umt5_xxl_fp8_e4m3fn_scaled.safetensors

ComfyUI/
├───📂 models/
│   ├───📂 diffusion_models/
│   │   ├─── wan2.2_t2v_low_noise_14B_fp8_scaled.safetensors
│   │   └─── wan2.2_t2v_high_noise_14B_fp8_scaled.safetensors
│   ├───📂 text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors 
│   └───📂 vae/
│       └── wan_2.1_vae.safetensors

Pasos detallados de operación

Diagrama de pasos

Asegúrese de que el primer nodo Load Diffusion Model cargue el modelo wan2.2_t2v_high_noise_14B_fp8_scaled.safetensors
Asegúrese de que el segundo nodo Load Diffusion Model cargue el modelo wan2.2_t2v_low_noise_14B_fp8_scaled.safetensors
Asegúrese de que el nodo Load CLIP cargue el modelo umt5_xxl_fp8_e4m3fn_scaled.safetensors
Asegúrese de que el nodo Load VAE cargue el modelo wan_2.1_vae.safetensors
(Opcional) En EmptyHunyuanLatentVideo puede ajustar la configuración de tamaño y el ajuste del número total de fotogramas del video length
Si necesita modificar las indicaciones (positivas y negativas), modifíquelas en el nodo CLIP Text Encoder número 6
Haga clic en el botón Run, o use el atajo Ctrl(cmd) + Enter para ejecutar la generación de video

3. Flujo de trabajo imagen a video Wan2.2 14B I2V

Método de obtención del flujo de trabajo

Actualice su ComfyUI a la última versión y encuentre “Wan2.2 14B I2V” a través del menú Flujo de trabajo -> Explorar plantillas -> Video para cargar el flujo de trabajo

O actualice su ComfyUI a la última versión, luego descargue el flujo de trabajo a continuación y arrástrelo a ComfyUI para cargar el flujo de trabajo

Puede usar la siguiente imagen como entrada Imagen de entrada

Descarga de archivos de modelo

Modelo de difusión

VAE

wan_2.1_vae.safetensors

Codificador de texto

umt5_xxl_fp8_e4m3fn_scaled.safetensors

ComfyUI/
├───📂 models/
│   ├───📂 diffusion_models/
│   │   ├─── wan2.2_i2v_low_noise_14B_fp16.safetensors
│   │   └─── wan2.2_i2v_high_noise_14B_fp16.safetensors
│   ├───📂 text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors 
│   └───📂 vae/
│       └── wan_2.1_vae.safetensors

Pasos detallados de operación

Diagrama de pasos

Asegúrese de que el primer nodo Load Diffusion Model cargue el modelo wan2.2_t2v_high_noise_14B_fp8_scaled.safetensors
Asegúrese de que el segundo nodo Load Diffusion Model cargue el modelo wan2.2_t2v_low_noise_14B_fp8_scaled.safetensors
Asegúrese de que el nodo Load CLIP cargue el modelo umt5_xxl_fp8_e4m3fn_scaled.safetensors
Asegúrese de que el nodo Load VAE cargue el modelo wan_2.1_vae.safetensors
Cargue la imagen como fotograma inicial en el nodo Load Image
Si necesita modificar las indicaciones (positivas y negativas), modifíquelas en el nodo CLIP Text Encoder número 6
(Opcional) En EmptyHunyuanLatentVideo puede ajustar la configuración de tamaño y el ajuste del número total de fotogramas del video length
Haga clic en el botón Run, o use el atajo Ctrl(cmd) + Enter para ejecutar la generación de video

4. Flujo de trabajo de generación de video de primer y último fotograma Wan2.2 14B FLF2V

El flujo de trabajo de primer y último fotograma utiliza exactamente la misma ubicación de modelo que la sección I2V

Obtención de flujo de trabajo y materiales

Descargue el video o el flujo de trabajo en formato JSON a continuación y ábralo en ComfyUI

Descargue los materiales a continuación como entrada

Material de entrada

Pasos detallados de operación

Diagrama de pasos

Cargue la imagen como fotograma inicial en el primer nodo Load Image
Cargue la imagen como fotograma inicial en el segundo nodo Load Image
Modifique la configuración de tamaño en WanFirstLastFrameToVideo
- El flujo de trabajo establece por defecto un tamaño relativamente pequeño para evitar que los usuarios con poca VRAM consuman demasiados recursos
- Si tiene suficiente VRAM, puede probar un tamaño de aproximadamente 720P
Escriba indicaciones apropiadas según sus fotogramas inicial y final
Haga clic en el botón Run, o use el atajo Ctrl(cmd) + Enter para ejecutar la generación de video

Flujo de trabajo ComfyUI Wan2.2 Kijai WanVideoWrapper

⚠️

Este contenido está en preparación y se actualizará en un futuro próximo.

Esta parte del tutorial presentará el método conveniente utilizando Kijai/ComfyUI-WanVideoWrapper.

Repositorio de modelo relacionado: https://huggingface.co/Kijai/WanVideo_comfy_fp8_scaled

Flujo de trabajo ComfyUI versión cuantizada GGUF Wan2.2

⚠️

Este contenido está en preparación y se actualizará en un futuro próximo.

La versión GGUF es adecuada para usuarios con VRAM limitada, proporcionando los siguientes recursos:

Nodos personalizados relacionados: City96/ComfyUI-GGUF

Instrucciones de uso de Lightx2v 4steps LoRA

⚠️

Este contenido está en preparación y se actualizará en un futuro próximo.

Lightx2v proporciona una solución de optimización de generación rápida:

Wan2.2-T2V-A14B-4steps-lora-rank64-V1