Skip to content
ComfyUI Wiki
Ayuda a Construir una Mejor Base de Conocimientos de ComfyUI Conviértete en Patrocinador

title: Flujo de trabajo y tutorial de generación de video impulsado por audio Wan2.2-S2V en ComfyUI description: Guía completa para usar Wan2.2-S2V para crear videos sincronizados con audio en ComfyUI, incluyendo configuración de modelos, configuración de flujo de trabajo y ejemplos prácticos. sidebarTitle: “Wan2.2 S2V” tag: video, wan2.2, audio-generation, tutorial

Flujo de trabajo y tutorial de generación de video impulsado por audio Wan2.2-S2V en ComfyUI

Wan2.2-S2V representa un avance significativo en la tecnología de generación de video por IA, capaz de crear contenido de video dinámico a partir de imágenes estáticas y entradas de audio. Este modelo innovador destaca en la producción de videos sincronizados con sincronización labial natural, lo que lo hace particularmente valioso para creadores de contenido que trabajan en escenas de diálogo, actuaciones musicales y narrativas basadas en personajes.

Aspectos destacados del modelo

  • Generación de video impulsada por audio: Transforma imágenes estáticas y audio en videos sincronizados con sincronización labial y expresiones naturales
  • Calidad cinematográfica: Genera videos de calidad cinematográfica con expresiones faciales auténticas, movimientos corporales y lenguaje cinematográfico
  • Generación de nivel de minutos: Soporta la creación de videos de larga duración de hasta nivel de minutos en una sola generación
  • Soporte multi-formato: Funciona con personas reales, dibujos animados, animales, humanos digitales y soporta formatos de retrato, medio cuerpo y cuerpo completo
  • Control de movimiento mejorado: Genera acciones y entornos a partir de instrucciones de texto con mecanismos de control AdaIN y CrossAttention
  • Métricas de alto rendimiento: Alcanza FID 15.66, CSIM 0.677 y SSIM 0.734 para una calidad de video superior y consistencia de identidad

Flujo de trabajo nativo de Wan2.2 S2V en ComfyUI

Loading...

1. Descargar archivo de flujo de trabajo

Descargue el siguiente archivo de flujo de trabajo y arrástrelo a ComfyUI para cargar el flujo de trabajo.

Descargue la siguiente imagen y audio como entrada: input

2. Enlaces de modelos

Puede encontrar los modelos en nuestro repositorio

diffusion_models

audio_encoders

vae

text_encoders

ComfyUI/
├───📂 models/
│   ├───📂 diffusion_models/
│   │   ├─── wan2.2_s2v_14B_fp8_scaled.safetensors
│   │   └─── wan2.2_s2v_14B_bf16.safetensors
│   ├───📂 text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors 
│   ├───📂 audio_encoders/ # Cree una si no puede encontrar esta carpeta
│   │   └─── wav2vec2_large_english_fp16.safetensors 
│   └───📂 vae/
│       └── wan_2.1_vae.safetensors

3. Instrucciones del flujo de trabajo

Instrucciones del flujo de trabajo

3.1 Lightning LoRA (Opcional, para aceleración)

Lightning LoRA reduce el tiempo de generación de 20 pasos a 4 pasos pero puede afectar la calidad. Úselo para vistas previas rápidas, desactívelo para la salida final.

3.1.1 Consejos de preprocesamiento de audio

Separación de voz para mejores resultados: Dado que el núcleo de ComfyUI no incluye nodos de separación de voz, recomendamos usar herramientas externas para separar las vocales de la música de fondo antes del procesamiento. Esto es especialmente importante para la generación de diálogos y sincronización labial, ya que las pistas vocales limpias producen resultados significativamente mejores que el audio mezclado con música de fondo o ruido.

3.2 Acerca de los modelos fp8_scaled y bf16

Puede encontrar ambos modelos aquí:

La plantilla usa wan2.2_s2v_14B_fp8_scaled.safetensors para menor uso de VRAM. Pruebe wan2.2_s2v_14B_bf16.safetensors para mejor calidad.

3.3 Instrucciones paso a paso

Paso 1: Cargar modelos

  1. Cargar modelo de difusión: Cargue wan2.2_s2v_14B_fp8_scaled.safetensors o wan2.2_s2v_14B_bf16.safetensors
    • El flujo de trabajo usa wan2.2_s2v_14B_fp8_scaled.safetensors para requisitos de VRAM más bajos
    • Use wan2.2_s2v_14B_bf16.safetensors para salida de mejor calidad
  2. Cargar CLIP: Cargue umt5_xxl_fp8_e4m3fn_scaled.safetensors
  3. Cargar VAE: Cargue wan_2.1_vae.safetensors
  4. AudioEncoderLoader: Cargue wav2vec2_large_english_fp16.safetensors
  5. LoraLoaderModelOnly: Cargue wan2.2_t2v_lightx2v_4steps_lora_v1.1_high_noise.safetensors (Lightning LoRA)
    • Este LoRA reduce el tiempo de generación pero puede afectar la calidad
    • Desactive si la calidad de salida es insuficiente
  6. LoadAudio: Cargue el archivo de audio proporcionado o su propio audio
  7. Load Image: Cargue la imagen de referencia
  8. Tamaños de lote: Configure según el número de nodos del subgrafo Video S2V Extend
    • Cada subgrafo Video S2V Extend agrega 77 cuadros a la salida
    • Ejemplo: 2 subgrafos Video S2V Extend = tamaño de lote 3
    • Longitud de fragmento: Mantenga el valor predeterminado de 77
  9. Configuración del muestreador: Elija según el uso de Lightning LoRA
    • Con Lightning LoRA de 4 pasos: steps: 4, cfg: 1.0
    • Sin Lightning LoRA: steps: 20, cfg: 6.0
  10. Configuración de tamaño: Establezca las dimensiones del video de salida
  11. Video S2V Extend: Nodos de subgrafo de extensión de video
    • Cada extensión genera 77 / 16 = 4.8125 segundos de video
    • Calcular nodos necesarios: longitud de audio (segundos) × 16 ÷ 77
    • Ejemplo: audio de 14s = 224 cuadros ÷ 77 = 3 nodos de extensión
  12. Use Ctrl-Enter o haga clic en el botón Ejecutar para ejecutar el flujo de trabajo

Enlaces relacionados