Skip to content
ComfyUI Wiki
Aidez à Construire une Meilleure Base de Connaissances ComfyUI Devenir Parrain
Aucun article pour le moment. Revenez plus tard !

title: Flux de travail et tutoriel de génération vidéo pilotée par l’audio Wan2.2-S2V ComfyUI description: Guide complet pour utiliser Wan2.2-S2V afin de créer des vidéos synchronisées avec l’audio dans ComfyUI, incluant la configuration du modèle, la configuration du flux de travail et des exemples pratiques. sidebarTitle: “Wan2.2 S2V” tag: video, wan2.2, audio-generation, tutorial

Flux de travail et tutoriel de génération vidéo pilotée par l’audio Wan2.2-S2V ComfyUI

Wan2.2-S2V représente une avancée significative dans la technologie de génération vidéo par IA, capable de créer du contenu vidéo dynamique à partir d’images statiques et d’entrées audio. Ce modèle innovant excelle dans la production de vidéos synchronisées avec une synchronisation labiale naturelle, ce qui le rend particulièrement précieux pour les créateurs de contenu travaillant sur des scènes de dialogue, des performances musicales et des récits axés sur les personnages.

Points forts du modèle

  • Génération vidéo pilotée par l’audio : Transforme des images statiques et de l’audio en vidéos synchronisées avec une synchronisation labiale et des expressions naturelles
  • Qualité cinématographique : Génère des vidéos de qualité cinématographique avec des expressions faciales authentiques, des mouvements corporels et un langage caméra
  • Génération de niveau minute : Prend en charge la création de vidéos de longue durée allant jusqu’à une minute dans une seule génération
  • Prise en charge multi-format : Fonctionne avec des personnes réelles, des dessins animés, des animaux, des humains numériques et prend en charge les formats portrait, buste et corps entier
  • Contrôle de mouvement amélioré : Génère des actions et des environnements à partir d’instructions textuelles avec des mécanismes de contrôle AdaIN et CrossAttention
  • Métriques de haute performance : Atteint FID 15.66, CSIM 0.677 et SSIM 0.734 pour une qualité vidéo supérieure et une cohérence d’identité

Flux de travail natif Wan2.2 S2V ComfyUI

Loading...

1. Télécharger le fichier de flux de travail

Téléchargez le fichier de flux de travail suivant et faites-le glisser dans ComfyUI pour charger le flux de travail.

Téléchargez l’image et l’audio suivants comme entrée : input

2. Liens des modèles

Vous pouvez trouver les modèles dans notre dépôt

diffusion_models

audio_encoders

vae

text_encoders

ComfyUI/
├───📂 models/
│   ├───📂 diffusion_models/
│   │   ├─── wan2.2_s2v_14B_fp8_scaled.safetensors
│   │   └─── wan2.2_s2v_14B_bf16.safetensors
│   ├───📂 text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors 
│   ├───📂 audio_encoders/ # Créez-en un si vous ne trouvez pas ce dossier
│   │   └─── wav2vec2_large_english_fp16.safetensors 
│   └───📂 vae/
│       └── wan_2.1_vae.safetensors

3. Instructions du flux de travail

Instructions du flux de travail

3.1 Lightning LoRA (Facultatif, pour l’accélération)

Lightning LoRA réduit le temps de génération de 20 étapes à 4 étapes mais peut affecter la qualité. À utiliser pour des aperçus rapides, désactiver pour la sortie finale.

3.1.1 Conseils de prétraitement audio

Séparation vocale pour de meilleurs résultats : Comme le noyau ComfyUI n’inclut pas de nœuds de séparation vocale, nous recommandons d’utiliser des outils externes pour séparer les voix de la musique de fond avant le traitement. C’est particulièrement important pour la génération de dialogues et de synchronisation labiale, car les pistes vocales propres produisent des résultats nettement meilleurs que l’audio mixé avec de la musique de fond ou du bruit.

3.2 À propos des modèles fp8_scaled et bf16

Vous pouvez trouver les deux modèles ici:

Le modèle utilise wan2.2_s2v_14B_fp8_scaled.safetensors pour une utilisation VRAM plus faible. Essayez wan2.2_s2v_14B_bf16.safetensors pour une meilleure qualité.

3.3 Instructions étape par étape

Étape 1 : Charger les modèles

  1. Charger le modèle de diffusion : Chargez wan2.2_s2v_14B_fp8_scaled.safetensors ou wan2.2_s2v_14B_bf16.safetensors
    • Le flux de travail utilise wan2.2_s2v_14B_fp8_scaled.safetensors pour des exigences VRAM plus faibles
    • Utilisez wan2.2_s2v_14B_bf16.safetensors pour une sortie de meilleure qualité
  2. Charger CLIP : Chargez umt5_xxl_fp8_e4m3fn_scaled.safetensors
  3. Charger VAE : Chargez wan_2.1_vae.safetensors
  4. AudioEncoderLoader : Chargez wav2vec2_large_english_fp16.safetensors
  5. LoraLoaderModelOnly : Chargez wan2.2_t2v_lightx2v_4steps_lora_v1.1_high_noise.safetensors (Lightning LoRA)
    • Ce LoRA réduit le temps de génération mais peut affecter la qualité
    • Désactivez si la qualité de sortie est insuffisante
  6. LoadAudio : Téléchargez le fichier audio fourni ou votre propre audio
  7. Load Image : Téléchargez l’image de référence
  8. Tailles de lot : Définissez selon le nombre de nœuds de sous-graphe Video S2V Extend
    • Chaque sous-graphe Video S2V Extend ajoute 77 images à la sortie
    • Exemple : 2 sous-graphes Video S2V Extend = taille de lot 3
    • Longueur de segment : Conserver la valeur par défaut de 77
  9. Paramètres de l’échantillonneur : Choisissez en fonction de l’utilisation de Lightning LoRA
    • Avec Lightning LoRA 4 étapes : steps: 4, cfg: 1.0
    • Sans Lightning LoRA : steps: 20, cfg: 6.0
  10. Paramètres de taille : Définissez les dimensions de la vidéo de sortie
  11. Video S2V Extend : Nœuds de sous-graphe d’extension vidéo
    • Chaque extension génère 77 / 16 = 4,8125 secondes de vidéo
    • Calculer les nœuds nécessaires : longueur audio (secondes) × 16 ÷ 77
    • Exemple : audio de 14s = 224 images ÷ 77 = 3 nœuds d’extension
  12. Utilisez Ctrl-Entrée ou cliquez sur le bouton Exécuter pour exécuter le flux de travail

Liens associés