Guide complet d’utilisation des flux de travail Wan2.2 ComfyUI, versions officielles et communautaires (Kijai, GGUF)
Aperçu du tutoriel
Ce tutoriel présentera de manière exhaustive les diverses méthodes d’implémentation et d’utilisation du modèle de génération vidéo Wan2.2 dans ComfyUI. Wan2.2 est une nouvelle génération de modèle de génération multimodal lancée par Alibaba Cloud, adoptant une architecture innovante MoE (Mixture of Experts) avec des caractéristiques principales telles que le contrôle esthétique de niveau cinéma, la génération de mouvements complexes à grande échelle et le respect précis de la sémantique.
Versions et contenus couverts dans ce tutoriel
Versions terminées :
- ✅ Version officielle native ComfyUI - Flux de travail complet fourni par l’officiel ComfyOrg
- ✅ Version hybride Wan2.2 5B - Modèle léger prenant en charge le texte vers vidéo et l’image vers vidéo
- ✅ Version texte vers vidéo Wan2.2 14B - Génération vidéo de haute qualité à partir de texte
- ✅ Version image vers vidéo Wan2.2 14B - Image statique vers vidéo dynamique
- ✅ Génération vidéo première-dernière image Wan2.2 14B - Génération vidéo basée sur les images de début et de fin
Versions en préparation :
- 🔄 Version Kijai WanVideoWrapper
- 🔄 Version quantifiée GGUF - Version optimisée pour les appareils de faible configuration
- 🔄 Lightx2v 4steps LoRA - Solution d’optimisation de génération rapide
À propos du modèle de génération vidéo Wan2.2
Wan2.2 adopte une architecture innovante MoE (Mixture of Experts), composée de modèles experts à bruit élevé et de modèles experts à bruit faible, qui peuvent diviser les modèles experts selon les étapes de débruitage pour générer du contenu vidéo de meilleure qualité.
Avantages principaux :
- Contrôle esthétique de niveau cinéma : Langage de lentille professionnel, supportant le contrôle visuel multidimensionnel de l’éclairage, de la couleur, de la composition, etc.
- Mouvement complexe à grande échelle : Reproduction fluide de divers mouvements complexes, renforçant la contrôlabilité et la naturalité du mouvement
- Respect précis de la sémantique : Compréhension de scènes complexes, génération d’objets multiples, meilleure restitution de l’intention créative
- Technologie de compression efficace : VAE à haut taux de compression de la version 5B, optimisation de la mémoire, supportant l’entraînement hybride
La série de modèles Wan2.2 est basée sur la licence open source Apache2.0, supportant l’utilisation commerciale. La licence Apache2.0 vous permet d’utiliser, modifier et distribuer librement ces modèles, y compris à des fins commerciales, à condition de conserver l’avis de droit d’auteur original et le texte de la licence.
Aperçu des versions du modèle open source Wan2.2
Type de modèle | Nom du modèle | Paramètres | Fonction principale | Dépôt du modèle |
---|---|---|---|---|
Modèle hybride | Wan2.2-TI2V-5B | 5B | Version hybride supportant le texte vers vidéo et l’image vers vidéo, un seul modèle satisfaisant deux exigences de tâches principales | 🤗 Wan2.2-TI2V-5B |
Image vers vidéo | Wan2.2-I2V-A14B | 14B | Convertit des images statiques en vidéos dynamiques, maintenant la cohérence du contenu et des processus dynamiques fluides | 🤗 Wan2.2-I2V-A14B |
Texte vers vidéo | Wan2.2-T2V-A14B | 14B | Génère des vidéos de haute qualité à partir de descriptions textuelles, avec un contrôle esthétique de niveau cinéma et un respect précis de la sémantique | 🤗 Wan2.2-T2V-A14B |
Guide des invites Wan2.2 - Guide détaillé de rédaction d’invites fourni par Wan
Ressources officielles ComfyUI
Rediffusion du live officiel ComfyOrg
YouTube de ComfyOrg contient des explications détaillées sur l’utilisation de Wan2.2 dans ComfyUI :
Guide d’utilisation du flux de travail de la version officielle native Wan2.2 ComfyUI
Description de la version
La version officielle native ComfyUI est fournie par l’équipe ComfyOrg, utilisant les fichiers de modèle reconditionnés 🤗 Comfy-Org/Wan_2.2_ComfyUI_Repackaged pour garantir la meilleure compatibilité avec ComfyUI.
1. Flux de travail de la version hybride Wan2.2 TI2V 5B
La version Wan2.2 5B combinée à la fonction d’offloading native de ComfyUI peut bien s’adapter à 8 Go de VRAM, ce qui en fait un choix idéal pour les utilisateurs débutants.
Méthode d’obtention du flux de travail
Veuillez mettre à jour votre ComfyUI vers la dernière version, et trouvez “Wan2.2 5B video generation” via le menu Flux de travail
-> Parcourir les modèles
-> Vidéo
pour charger le flux de travail
Télécharger le flux de travail au format JSON
Téléchargement des fichiers de modèle
Modèle de diffusion
VAE
Encodeur de texte
ComfyUI/
├───📂 models/
│ ├───📂 diffusion_models/
│ │ └───wan2.2_ti2v_5B_fp16.safetensors
│ ├───📂 text_encoders/
│ │ └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors
│ └───📂 vae/
│ └── wan2.2_vae.safetensors
Étapes détaillées d’opération
- Assurez-vous que le nœud
Load Diffusion Model
charge le modèlewan2.2_ti2v_5B_fp16.safetensors
- Assurez-vous que le nœud
Load CLIP
charge le modèleumt5_xxl_fp8_e4m3fn_scaled.safetensors
- Assurez-vous que le nœud
Load VAE
charge le modèlewan2.2_vae.safetensors
- (Facultatif) Si vous devez effectuer une image vers vidéo, vous pouvez utiliser le raccourci Ctrl+B pour activer le nœud
Load image
afin de télécharger des images - (Facultatif) Dans
Wan22ImageToVideoLatent
vous pouvez ajuster les paramètres de taille et le réglage du nombre total d’images de la vidéolength
- (Facultatif) Si vous devez modifier les invites (positives et négatives), modifiez-les dans le nœud
CLIP Text Encoder
numéro5
- Cliquez sur le bouton
Run
, ou utilisez le raccourciCtrl(cmd) + Enter
pour exécuter la génération vidéo
2. Flux de travail texte vers vidéo Wan2.2 14B T2V
Méthode d’obtention du flux de travail
Veuillez mettre à jour votre ComfyUI vers la dernière version, et trouvez “Wan2.2 14B T2V” via le menu Flux de travail
-> Parcourir les modèles
-> Vidéo
Ou mettez à jour votre ComfyUI vers la dernière version, puis téléchargez le flux de travail ci-dessous et faites-le glisser dans ComfyUI pour charger le flux de travail
Téléchargement des fichiers de modèle
Modèle de diffusion
VAE
Encodeur de texte
ComfyUI/
├───📂 models/
│ ├───📂 diffusion_models/
│ │ ├─── wan2.2_t2v_low_noise_14B_fp8_scaled.safetensors
│ │ └─── wan2.2_t2v_high_noise_14B_fp8_scaled.safetensors
│ ├───📂 text_encoders/
│ │ └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors
│ └───📂 vae/
│ └── wan_2.1_vae.safetensors
Étapes détaillées d’opération
- Assurez-vous que le premier nœud
Load Diffusion Model
charge le modèlewan2.2_t2v_high_noise_14B_fp8_scaled.safetensors
- Assurez-vous que le deuxième nœud
Load Diffusion Model
charge le modèlewan2.2_t2v_low_noise_14B_fp8_scaled.safetensors
- Assurez-vous que le nœud
Load CLIP
charge le modèleumt5_xxl_fp8_e4m3fn_scaled.safetensors
- Assurez-vous que le nœud
Load VAE
charge le modèlewan_2.1_vae.safetensors
- (Facultatif) Dans
EmptyHunyuanLatentVideo
vous pouvez ajuster les paramètres de taille et le réglage du nombre total d’images de la vidéolength
- Si vous devez modifier les invites (positives et négatives), modifiez-les dans le nœud
CLIP Text Encoder
numéro6
- Cliquez sur le bouton
Run
, ou utilisez le raccourciCtrl(cmd) + Enter
pour exécuter la génération vidéo
3. Flux de travail image vers vidéo Wan2.2 14B I2V
Méthode d’obtention du flux de travail
Veuillez mettre à jour votre ComfyUI vers la dernière version, et trouvez “Wan2.2 14B I2V” via le menu Flux de travail
-> Parcourir les modèles
-> Vidéo
pour charger le flux de travail
Ou mettez à jour votre ComfyUI vers la dernière version, puis téléchargez le flux de travail ci-dessous et faites-le glisser dans ComfyUI pour charger le flux de travail
Vous pouvez utiliser l’image suivante comme entrée
Téléchargement des fichiers de modèle
Modèle de diffusion
VAE
Encodeur de texte
ComfyUI/
├───📂 models/
│ ├───📂 diffusion_models/
│ │ ├─── wan2.2_i2v_low_noise_14B_fp16.safetensors
│ │ └─── wan2.2_i2v_high_noise_14B_fp16.safetensors
│ ├───📂 text_encoders/
│ │ └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors
│ └───📂 vae/
│ └── wan_2.1_vae.safetensors
Étapes détaillées d’opération
- Assurez-vous que le premier nœud
Load Diffusion Model
charge le modèlewan2.2_t2v_high_noise_14B_fp8_scaled.safetensors
- Assurez-vous que le deuxième nœud
Load Diffusion Model
charge le modèlewan2.2_t2v_low_noise_14B_fp8_scaled.safetensors
- Assurez-vous que le nœud
Load CLIP
charge le modèleumt5_xxl_fp8_e4m3fn_scaled.safetensors
- Assurez-vous que le nœud
Load VAE
charge le modèlewan_2.1_vae.safetensors
- Téléchargez l’image comme image de départ dans le nœud
Load Image
- Si vous devez modifier les invites (positives et négatives), modifiez-les dans le nœud
CLIP Text Encoder
numéro6
- (Facultatif) Dans
EmptyHunyuanLatentVideo
vous pouvez ajuster les paramètres de taille et le réglage du nombre total d’images de la vidéolength
- Cliquez sur le bouton
Run
, ou utilisez le raccourciCtrl(cmd) + Enter
pour exécuter la génération vidéo
4. Flux de travail de génération vidéo première-dernière image Wan2.2 14B FLF2V
Le flux de travail première-dernière image utilise exactement le même emplacement de modèle que la section I2V
Obtention du flux de travail et des matériaux
Téléchargez la vidéo ou le flux de travail au format JSON ci-dessous et ouvrez-le dans ComfyUI
Téléchargez les matériaux ci-dessous comme entrée
Étapes détaillées d’opération
- Téléchargez l’image comme image de départ dans le premier nœud
Load Image
- Téléchargez l’image comme image de départ dans le deuxième nœud
Load Image
- Modifiez les paramètres de taille sur
WanFirstLastFrameToVideo
- Le flux de travail définit par défaut une taille relativement petite pour éviter que les utilisateurs avec peu de VRAM ne consomment trop de ressources
- Si vous avez suffisamment de VRAM, vous pouvez essayer une taille d’environ 720P
- Rédigez des invites appropriées selon vos images de début et de fin
- Cliquez sur le bouton
Run
, ou utilisez le raccourciCtrl(cmd) + Enter
pour exécuter la génération vidéo
Flux de travail ComfyUI Wan2.2 Kijai WanVideoWrapper
Ce contenu est en préparation et sera mis à jour prochainement.
Cette partie du tutoriel présentera la méthode pratique utilisant Kijai/ComfyUI-WanVideoWrapper.
Dépôt de modèle associé : https://huggingface.co/Kijai/WanVideo_comfy_fp8_scaled
Flux de travail ComfyUI version quantifiée GGUF Wan2.2
Ce contenu est en préparation et sera mis à jour prochainement.
La version GGUF convient aux utilisateurs avec une VRAM limitée, fournissant les ressources suivantes :
Nœuds personnalisés associés : City96/ComfyUI-GGUF
Instructions d’utilisation de Lightx2v 4steps LoRA
Ce contenu est en préparation et sera mis à jour prochainement.
Lightx2v fournit une solution d’optimisation de génération rapide :