Guía completa de uso de flujos de trabajo Wan2.2 Fun InP ComfyUI, versiones oficiales y comunitarias (Kijai, GGUF)
Resumen del tutorial
Este tutorial presentará de manera integral los diversos métodos de implementación y uso del modelo de generación de video de primer y último fotograma Wan2.2 Fun InP en ComfyUI. Wan2.2 Fun InP es un modelo profesional de generación de video con control de primer y último fotograma lanzado por Alibaba Cloud, que soporta la entrada de imágenes de primer y último fotograma para generar videos de transición intermedia, brindando mayor control creativo a los creadores.
Versiones y contenidos cubiertos en este tutorial
Versiones completadas:
- ✅ Versión oficial nativa de ComfyUI - Flujo de trabajo completo proporcionado por el oficial de ComfyOrg
- ✅ Versión de primer y último fotograma Wan2.2 Fun InP 14B - Generación de video de control de primer y último fotograma de alta calidad
Versiones en preparación:
- 🔄 Versión Kijai WanVideoWrapper - Envoltorio conveniente desarrollado por la comunidad
- 🔄 Versión cuantizada GGUF - Versión optimizada para dispositivos de baja configuración
Características técnicas del modelo
Wan2.2 Fun InP se basa en la arquitectura Wan2.2 y ha sido específicamente optimizado para la generación de video con control de primer y último fotograma, con las siguientes características principales:
Ventajas principales:
- Control de primer y último fotograma: Soporta la entrada de imágenes de primer y último fotograma para generar videos de transición intermedia, mejorando la coherencia del video y la libertad creativa
- Generación de video de alta calidad: Basado en la arquitectura Wan2.2, generando videos de calidad cinematográfica
- Soporte de múltiples resoluciones: Soporta la generación de videos en resoluciones como 512×512, 768×768, 1024×1024, adaptándose a diferentes requisitos de escenarios
La serie de modelos Wan2.2 Fun InP se basa en la licencia de código abierto Apache2.0, soportando uso comercial. La licencia Apache2.0 le permite usar, modificar y distribuir libremente estos modelos, incluyendo fines comerciales, siempre que conserve el aviso de copyright original y el texto de la licencia.
Resumen de versiones del modelo de código abierto Wan2.2 Fun InP
Tipo de modelo | Nombre del modelo | Parámetros | Función principal | Repositorio del modelo |
---|---|---|---|---|
Control de primer y último fotograma | Wan2.2-Fun-A14B-InP | 14B | Soporta la entrada de imágenes de primer y último fotograma para generar videos de transición intermedia, brindando mayor control creativo a los creadores | 🤗 Wan2.2-Fun-A14B-InP |
Control de video | Wan2.2-Fun-A14B-Control | 14B | Soporta diferentes condiciones de control como Canny, Depth, Pose, MLSD, etc., mientras también soporta control de trayectoria | 🤗 Wan2.2-Fun-A14B-Control |
Recursos de aprendizaje oficiales
Repositorios de código relacionados
- Repositorio GitHub VideoX-Fun - Código de implementación completa oficial
- Documentación oficial de Wan2.2 Fun - Descripción detallada del modelo y guía de uso
Guía de uso del flujo de trabajo de la versión oficial nativa de Wan2.2 Fun InP ComfyUI
Descripción de la versión
La versión oficial nativa de ComfyUI es proporcionada por el equipo de ComfyOrg, utilizando archivos de modelo reempaquetados para garantizar la mejor compatibilidad con ComfyUI. Esta versión soporta tanto el modo estándar como el modo de aceleración LoRA de 4 pasos Lightx2v.
Prueba de comparación de rendimiento
A continuación se muestran los resultados de prueba utilizando GPU RTX4090D 24GB VRAM para resolución 640*640 y longitud de 81 fotogramas:
Tipo de modelo | Resolución | Uso de VRAM | Tiempo de primera generación | Tiempo de segunda generación |
---|---|---|---|---|
fp8_scaled | 640×640 | 83% | ≈ 524 segundos | ≈ 520 segundos |
fp8_scaled + aceleración LoRA de 4 pasos | 640×640 | 89% | ≈ 138 segundos | ≈ 79 segundos |
Dado que el uso de LoRA acelerado proporciona una mejora significativa en velocidad, aunque hay cierta pérdida en dinamismo, es más amigable para usuarios con poca VRAM. Por lo tanto, en los dos flujos de trabajo proporcionados, la versión LoRA acelerada está habilitada por defecto. Si necesita habilitar el otro flujo de trabajo, selecciónelo y use Ctrl+B para habilitarlo.
1. Flujo de trabajo de generación de video de primer y último fotograma Wan2.2 Fun InP ComfyUI
Método de obtención del flujo de trabajo
Use los materiales a continuación como primer y último fotograma
Descarga de archivos de modelo
Modelo de difusión
- wan2.2_fun_inpaint_high_noise_14B_fp8_scaled.safetensors
- wan2.2_fun_inpaint_low_noise_14B_fp8_scaled.safetensors
Lightning LoRA (Opcional, para aceleración)
- wan2.2_i2v_lightx2v_4steps_lora_v1_high_noise.safetensors
- wan2.2_i2v_lightx2v_4steps_lora_v1_low_noise.safetensors
VAE
Codificador de texto
ComfyUI/
├───📂 models/
│ ├───📂 diffusion_models/
│ │ ├─── wan2.2_fun_inpaint_high_noise_14B_fp8_scaled.safetensors
│ │ └─── wan2.2_fun_inpaint_low_noise_14B_fp8_scaled.safetensors
│ ├───📂 loras/
│ │ ├─── wan2.2_i2v_lightx2v_4steps_lora_v1_high_noise.safetensors
│ │ └─── wan2.2_i2v_lightx2v_4steps_lora_v1_low_noise.safetensors
│ ├───📂 text_encoders/
│ │ └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors
│ └───📂 vae/
│ └── wan_2.1_vae.safetensors
Pasos detallados de operación
Este flujo de trabajo usa LoRA, por favor asegúrese de que el modelo Diffusion y LoRA correspondientes sean consistentes
- Carga del modelo ruido alto y LoRA
- Asegúrese de que el nodo
Load Diffusion Model
cargue el modelowan2.2_fun_inpaint_high_noise_14B_fp8_scaled.safetensors
- Asegúrese de que el nodo
LoraLoaderModelOnly
cargue elwan2.2_i2v_lightx2v_4steps_lora_v1_high_noise.safetensors
- Carga del modelo ruido bajo y LoRA
- Asegúrese de que el nodo
Load Diffusion Model
cargue el modelowan2.2_fun_inpaint_low_noise_14B_fp8_scaled.safetensors
- Asegúrese de que el nodo
LoraLoaderModelOnly
cargue elwan2.2_i2v_lightx2v_4steps_lora_v1_low_noise.safetensors
- Asegúrese de que el nodo
Load CLIP
cargue el modeloumt5_xxl_fp8_e4m3fn_scaled.safetensors
- Asegúrese de que el nodo
Load VAE
cargue el modelowan_2.1_vae.safetensors
- Carga de imágenes de primer y último fotograma, cargue los materiales de imagen de primer y último fotograma respectivamente
- Ingrese indicaciones en el grupo Prompt
- Ajuste de tamaño y longitud de video del nodo
WanFunInpaintToVideo
- Ajuste las dimensiones
width
yheight
, el valor predeterminado es640
, hemos establecido un tamaño más pequeño y puede modificarlo según sea necesario - Ajuste
length
, este es el número total de fotogramas del video. El fps del flujo de trabajo actual es 16. Si necesita generar un video de 5 segundos, debe establecer 5*16 = 80
- Ajuste las dimensiones
- Haga clic en el botón
Run
, o use el atajoCtrl(cmd) + Enter
para ejecutar la generación de video
Flujo de trabajo ComfyUI Wan2.2 Fun InP Kijai WanVideoWrapper
Este contenido se está preparando y se actualizará pronto.
Esta parte del tutorial presentará el método conveniente usando Kijai/ComfyUI-WanVideoWrapper.
Repositorio de modelo relacionado: https://huggingface.co/Kijai/WanVideo_comfy_fp8_scaled
Flujo de trabajo ComfyUI versión cuantizada GGUF Wan2.2 Fun InP
Este contenido se está preparando y se actualizará pronto.
La versión GGUF es adecuada para usuarios con VRAM limitada, proporcionando los siguientes recursos:
QuantStack/Wan2.2-Fun-A14B-InP-GGUF
Nodos personalizados relacionados: City96/ComfyUI-GGUF