Guía completa de uso de flujos de trabajo Wan2.2 Fun Control ComfyUI, versiones oficiales y comunitarias (Kijai, GGUF)
Este tutorial presentará de manera integral los diversos métodos de implementación y uso del modelo de generación de control de video Wan2.2 Fun Control en ComfyUI. Wan2.2 Fun Control es una nueva generación de modelo de generación y control de video lanzado por Alibaba Cloud. Al introducir un mecanismo innovador de códigos de control (Control Codes) combinado con aprendizaje profundo y entrada condicional multimodal, puede generar videos de alta calidad que cumplan con las condiciones de control preestablecidas.
Versiones y contenidos cubiertos en este tutorial
Versiones completadas:
- ✅ Versión oficial nativa de ComfyUI - Flujo de trabajo completo proporcionado en la documentación oficial de ComfyOrg
- ✅ Versión de control de video Wan2.2 Fun Control 14B - Generación de video de control multimodal de alta calidad
Versiones en preparación:
- 🔄 Versión Kijai WanVideoWrapper - Envoltorio conveniente desarrollado por la comunidad
- 🔄 Versión cuantizada GGUF - Versión optimizada para dispositivos de baja configuración
Características técnicas del modelo
Wan2.2 Fun Control se basa en la arquitectura Wan2.2 y ha sido específicamente optimizado para la generación de control de video, con las siguientes características principales:
Ventajas principales:
- Control multimodal: Soporta múltiples condiciones de control, incluyendo Canny (dibujo de líneas), Depth (profundidad), OpenPose (pose humana), MLSD (bordes geométricos), etc., mientras también soporta control de trayectoria
- Generación de video de alta calidad: Basado en la arquitectura Wan2.2, generando videos de calidad cinematográfica
- Soporte multilingüe: Soporta entrada de indicaciones en múltiples idiomas incluyendo chino e inglés
- Soporte de múltiples resoluciones: Soporta la generación de videos en resoluciones como 512×512, 768×768, 1024×1024, adaptándose a diferentes requisitos de escenarios
Descripción de licencia de código abierto
La serie de modelos Wan2.2 Fun Control se basa en la licencia de código abierto Apache2.0, soportando uso comercial. La licencia Apache2.0 le permite usar, modificar y distribuir libremente estos modelos, incluyendo para fines comerciales, siempre que conserve el aviso de copyright original y el texto de la licencia.
Resumen de versiones del modelo de código abierto Wan2.2 Fun Control
Tipo de modelo | Nombre del modelo | Parámetros | Función principal | Repositorio del modelo |
---|---|---|---|---|
Control de video | Wan2.2-Fun-A14B-Control | 14B | Soporta diferentes condiciones de control como Canny, Depth, Pose, MLSD, etc., mientras también soporta control de trayectoria | 🤗 Wan2.2-Fun-A14B-Control |
Repositorios de código relacionados
- Repositorio GitHub VideoX-Fun - Código de implementación completa oficial
- Documentación oficial de Wan2.2 Fun Control - Descripción detallada del modelo y guía de uso
Guía de uso del flujo de trabajo de la versión oficial nativa de Wan2.2 Fun Control ComfyUI
Descripción de la versión
La versión oficial nativa de ComfyUI es proporcionada por el equipo ComfyOrg, utilizando archivos de modelo reempaquetados para garantizar la compatibilidad óptima con ComfyUI. Esta versión soporta tanto el modo estándar como el modo de aceleración LoRA de 4 pasos Lightx2v.
Prueba de comparación de rendimiento
A continuación se muestran los resultados de prueba utilizando GPU RTX4090D 24GB VRAM para resolución 640*640 y longitud de 81 cuadros:
Tipo de modelo | Resolución | Uso de VRAM | Tiempo de primera generación | Tiempo de segunda generación |
---|---|---|---|---|
fp8_scaled | 640×640 | 83% | ≈ 524 segundos | ≈ 520 segundos |
fp8_scaled + aceleración LoRA de 4 pasos | 640×640 | 89% | ≈ 138 segundos | ≈ 79 segundos |
Dado que se utiliza LoRA de 4 pasos, la experiencia de usuario para usuarios que usan el flujo de trabajo por primera vez es mejor, pero puede causar pérdida de dinamismo del video. Hemos habilitado la versión LoRA acelerada por defecto. Si necesita habilitar otro conjunto de flujos de trabajo, selecciónelo y use Ctrl+B para habilitarlo.
1. Flujo de trabajo de generación de control de video Wan2.2 Fun Control ComfyUI
Método de obtención del flujo de trabajo
Descargue el video o archivo JSON a continuación y arrástrelo a ComfyUI para cargar el flujo de trabajo correspondiente
Descargar flujo de trabajo en formato JSON
Por favor descargue las imágenes y videos a continuación, que usaremos como entrada.
Aquí usamos un video preprocesado que puede usarse directamente para la generación de video de control
Descarga de archivos de modelo
Puede encontrar los siguientes modelos en Wan_2.2_ComfyUI_Repackaged
Modelo de difusión
- wan2.2_fun_control_high_noise_14B_fp8_scaled.safetensors
- wan2.2_fun_control_low_noise_14B_fp8_scaled.safetensors
Wan2.2-Lightning LoRA (Opcional, para aceleración)
- wan2.2_i2v_lightx2v_4steps_lora_v1_high_noise.safetensors
- wan2.2_i2v_lightx2v_4steps_lora_v1_low_noise.safetensors
VAE
Codificador de texto
ComfyUI/
├───📂 models/
│ ├───📂 diffusion_models/
│ │ ├─── wan2.2_fun_control_low_noise_14B_fp8_scaled.safetensors
│ │ └─── wan2.2_fun_control_high_noise_14B_fp8_scaled.safetensors
│ ├───📂 loras/
│ │ ├─── wan2.2_i2v_lightx2v_4steps_lora_v1_high_noise.safetensors
│ │ └─── wan2.2_i2v_lightx2v_4steps_lora_v1_low_noise.safetensors
│ ├───📂 text_encoders/
│ │ └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors
│ └───📂 vae/
│ └── wan_2.1_vae.safetensors
Pasos detallados de operación
Este flujo de trabajo usa LoRA, por favor asegúrese de que el modelo Diffusion y LoRA correspondientes sean consistentes. Los modelos y LoRA de ruido alto y bajo necesitan usarse correspondientemente.
- Carga del modelo ruido alto y LoRA
- Asegúrese de que el nodo
Load Diffusion Model
cargue el modelowan2.2_fun_control_high_noise_14B_fp8_scaled.safetensors
- Asegúrese de que el nodo
LoraLoaderModelOnly
cargue elwan2.2_i2v_lightx2v_4steps_lora_v1_high_noise.safetensors
- Carga del modelo ruido bajo y LoRA
- Asegúrese de que el nodo
Load Diffusion Model
cargue el modelowan2.2_fun_control_low_noise_14B_fp8_scaled.safetensors
- Asegúrese de que el nodo
LoraLoaderModelOnly
cargue elwan2.2_i2v_lightx2v_4steps_lora_v1_low_noise.safetensors
- Asegúrese de que el nodo
Load CLIP
cargue el modeloumt5_xxl_fp8_e4m3fn_scaled.safetensors
- Asegúrese de que el nodo
Load VAE
cargue el modelowan_2.1_vae.safetensors
- Cargue el cuadro inicial en el nodo
Load Image
- En el segundo nodo
Load video
, controle el video de pose. El video proporcionado ha sido preprocesado y puede usarse directamente - Dado que el video que proporcionamos es un video de pose preprocesado, los nodos correspondientes de preprocesamiento de imagen de video necesitan deshabilitarse. Puede seleccionarlos y usar Ctrl + B` para deshabilitarlos
- Modifique Prompt - se soportan tanto chino como inglés
- En
Wan22FunControlToVideo
, modifique el tamaño del video correspondiente. El valor predeterminado está configurado en resolución 640*640 para evitar un consumo de tiempo excesivo para usuarios con poca VRAM usando este flujo de trabajo - Haga clic en el botón
Run
, o use el atajoCtrl(cmd) + Enter
para ejecutar la generación de video
Notas adicionales
Dado que en los nodos integrados de ComfyUI, los nodos de preprocesador solo tienen preprocesadores Canny, puede usar similar ComfyUI-comfyui_controlnet_aux para implementar otros tipos de preprocesamiento de imagen
Flujo de trabajo ComfyUI Wan2.2 Fun Control Kijai WanVideoWrapper
Este contenido se está preparando y se actualizará pronto.
Esta parte del tutorial presentará el método conveniente usando Kijai/ComfyUI-WanVideoWrapper.
Repositorio de modelo relacionado: https://huggingface.co/Kijai/WanVideo_comfy_fp8_scaled
Flujo de trabajo ComfyUI versión cuantizada GGUF Wan2.2 Fun Control
Este contenido se está preparando y se actualizará pronto.
La versión GGUF es adecuada para usuarios con VRAM limitada, proporcionando los siguientes recursos:
QuantStack/Wan2.2-Fun-A14B-Control-GGUF
Nodos personalizados relacionados: City96/ComfyUI-GGUF