Aucun article pour le moment. Revenez plus tard !

Guide complet d’utilisation des flux de travail Wan2.2 ComfyUI, versions officielles et communautaires (Kijai, GGUF)

Wan2.2

Aperçu du tutoriel

Ce tutoriel présentera de manière exhaustive les diverses méthodes d’implémentation et d’utilisation du modèle de génération vidéo Wan2.2 dans ComfyUI. Wan2.2 est une nouvelle génération de modèle de génération multimodal lancée par Alibaba Cloud, adoptant une architecture innovante MoE (Mixture of Experts) avec des caractéristiques principales telles que le contrôle esthétique de niveau cinéma, la génération de mouvements complexes à grande échelle et le respect précis de la sémantique.

Versions et contenus couverts dans ce tutoriel

Versions terminées :

✅ Version officielle native ComfyUI - Flux de travail complet fourni par l’officiel ComfyOrg
✅ Version hybride Wan2.2 5B - Modèle léger prenant en charge le texte vers vidéo et l’image vers vidéo
✅ Version texte vers vidéo Wan2.2 14B - Génération vidéo de haute qualité à partir de texte
✅ Version image vers vidéo Wan2.2 14B - Image statique vers vidéo dynamique
✅ Génération vidéo première-dernière image Wan2.2 14B - Génération vidéo basée sur les images de début et de fin

Versions en préparation :

🔄 Version Kijai WanVideoWrapper
🔄 Version quantifiée GGUF - Version optimisée pour les appareils de faible configuration
🔄 Lightx2v 4steps LoRA - Solution d’optimisation de génération rapide

À propos du modèle de génération vidéo Wan2.2

Wan2.2 adopte une architecture innovante MoE (Mixture of Experts), composée de modèles experts à bruit élevé et de modèles experts à bruit faible, qui peuvent diviser les modèles experts selon les étapes de débruitage pour générer du contenu vidéo de meilleure qualité.

Avantages principaux :

Contrôle esthétique de niveau cinéma : Langage de lentille professionnel, supportant le contrôle visuel multidimensionnel de l’éclairage, de la couleur, de la composition, etc.
Mouvement complexe à grande échelle : Reproduction fluide de divers mouvements complexes, renforçant la contrôlabilité et la naturalité du mouvement
Respect précis de la sémantique : Compréhension de scènes complexes, génération d’objets multiples, meilleure restitution de l’intention créative
Technologie de compression efficace : VAE à haut taux de compression de la version 5B, optimisation de la mémoire, supportant l’entraînement hybride

La série de modèles Wan2.2 est basée sur la licence open source Apache2.0, supportant l’utilisation commerciale. La licence Apache2.0 vous permet d’utiliser, modifier et distribuer librement ces modèles, y compris à des fins commerciales, à condition de conserver l’avis de droit d’auteur original et le texte de la licence.

Aperçu des versions du modèle open source Wan2.2

Type de modèle	Nom du modèle	Paramètres	Fonction principale	Dépôt du modèle
Modèle hybride	Wan2.2-TI2V-5B	5B	Version hybride supportant le texte vers vidéo et l’image vers vidéo, un seul modèle satisfaisant deux exigences de tâches principales	🤗 Wan2.2-TI2V-5B
Image vers vidéo	Wan2.2-I2V-A14B	14B	Convertit des images statiques en vidéos dynamiques, maintenant la cohérence du contenu et des processus dynamiques fluides	🤗 Wan2.2-I2V-A14B
Texte vers vidéo	Wan2.2-T2V-A14B	14B	Génère des vidéos de haute qualité à partir de descriptions textuelles, avec un contrôle esthétique de niveau cinéma et un respect précis de la sémantique	🤗 Wan2.2-T2V-A14B

Guide des invites Wan2.2 - Guide détaillé de rédaction d’invites fourni par Wan

Ressources officielles ComfyUI

Rediffusion du live officiel ComfyOrg

YouTube de ComfyOrg contient des explications détaillées sur l’utilisation de Wan2.2 dans ComfyUI :

Rediffusion live ComfyUI Wan2.2

ComfyUI Wan2.2 approfondi

ComfyUI Wan2.2 approfondi #2

Guide d’utilisation du flux de travail de la version officielle native Wan2.2 ComfyUI

Description de la version

La version officielle native ComfyUI est fournie par l’équipe ComfyOrg, utilisant les fichiers de modèle reconditionnés 🤗 Comfy-Org/Wan_2.2_ComfyUI_Repackaged pour garantir la meilleure compatibilité avec ComfyUI.

Modèle Wan2.2

1. Flux de travail de la version hybride Wan2.2 TI2V 5B

💡

La version Wan2.2 5B combinée à la fonction d’offloading native de ComfyUI peut bien s’adapter à 8 Go de VRAM, ce qui en fait un choix idéal pour les utilisateurs débutants.

Méthode d’obtention du flux de travail

Veuillez mettre à jour votre ComfyUI vers la dernière version, et trouvez “Wan2.2 5B video generation” via le menu Flux de travail -> Parcourir les modèles -> Vidéo pour charger le flux de travail

Télécharger le flux de travail au format JSON

Téléchargement des fichiers de modèle

Modèle de diffusion

wan2.2_ti2v_5B_fp16.safetensors

VAE

wan2.2_vae.safetensors

Encodeur de texte

umt5_xxl_fp8_e4m3fn_scaled.safetensors

ComfyUI/
├───📂 models/
│   ├───📂 diffusion_models/
│   │   └───wan2.2_ti2v_5B_fp16.safetensors
│   ├───📂 text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors 
│   └───📂 vae/
│       └── wan2.2_vae.safetensors

Étapes détaillées d’opération

Diagramme d'étapes

Assurez-vous que le nœud Load Diffusion Model charge le modèle wan2.2_ti2v_5B_fp16.safetensors
Assurez-vous que le nœud Load CLIP charge le modèle umt5_xxl_fp8_e4m3fn_scaled.safetensors
Assurez-vous que le nœud Load VAE charge le modèle wan2.2_vae.safetensors
(Facultatif) Si vous devez effectuer une image vers vidéo, vous pouvez utiliser le raccourci Ctrl+B pour activer le nœud Load image afin de télécharger des images
(Facultatif) Dans Wan22ImageToVideoLatent vous pouvez ajuster les paramètres de taille et le réglage du nombre total d’images de la vidéo length
(Facultatif) Si vous devez modifier les invites (positives et négatives), modifiez-les dans le nœud CLIP Text Encoder numéro 5
Cliquez sur le bouton Run, ou utilisez le raccourci Ctrl(cmd) + Enter pour exécuter la génération vidéo

2. Flux de travail texte vers vidéo Wan2.2 14B T2V

Méthode d’obtention du flux de travail

Veuillez mettre à jour votre ComfyUI vers la dernière version, et trouvez “Wan2.2 14B T2V” via le menu Flux de travail -> Parcourir les modèles -> Vidéo

Ou mettez à jour votre ComfyUI vers la dernière version, puis téléchargez le flux de travail ci-dessous et faites-le glisser dans ComfyUI pour charger le flux de travail

Téléchargement des fichiers de modèle

Modèle de diffusion

VAE

wan_2.1_vae.safetensors

Encodeur de texte

umt5_xxl_fp8_e4m3fn_scaled.safetensors

ComfyUI/
├───📂 models/
│   ├───📂 diffusion_models/
│   │   ├─── wan2.2_t2v_low_noise_14B_fp8_scaled.safetensors
│   │   └─── wan2.2_t2v_high_noise_14B_fp8_scaled.safetensors
│   ├───📂 text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors 
│   └───📂 vae/
│       └── wan_2.1_vae.safetensors

Étapes détaillées d’opération

Diagramme d'étapes

Assurez-vous que le premier nœud Load Diffusion Model charge le modèle wan2.2_t2v_high_noise_14B_fp8_scaled.safetensors
Assurez-vous que le deuxième nœud Load Diffusion Model charge le modèle wan2.2_t2v_low_noise_14B_fp8_scaled.safetensors
Assurez-vous que le nœud Load CLIP charge le modèle umt5_xxl_fp8_e4m3fn_scaled.safetensors
Assurez-vous que le nœud Load VAE charge le modèle wan_2.1_vae.safetensors
(Facultatif) Dans EmptyHunyuanLatentVideo vous pouvez ajuster les paramètres de taille et le réglage du nombre total d’images de la vidéo length
Si vous devez modifier les invites (positives et négatives), modifiez-les dans le nœud CLIP Text Encoder numéro 6
Cliquez sur le bouton Run, ou utilisez le raccourci Ctrl(cmd) + Enter pour exécuter la génération vidéo

3. Flux de travail image vers vidéo Wan2.2 14B I2V

Méthode d’obtention du flux de travail

Veuillez mettre à jour votre ComfyUI vers la dernière version, et trouvez “Wan2.2 14B I2V” via le menu Flux de travail -> Parcourir les modèles -> Vidéo pour charger le flux de travail

Ou mettez à jour votre ComfyUI vers la dernière version, puis téléchargez le flux de travail ci-dessous et faites-le glisser dans ComfyUI pour charger le flux de travail

Vous pouvez utiliser l’image suivante comme entrée Image d'entrée

Téléchargement des fichiers de modèle

Modèle de diffusion

VAE

wan_2.1_vae.safetensors

Encodeur de texte

umt5_xxl_fp8_e4m3fn_scaled.safetensors

ComfyUI/
├───📂 models/
│   ├───📂 diffusion_models/
│   │   ├─── wan2.2_i2v_low_noise_14B_fp16.safetensors
│   │   └─── wan2.2_i2v_high_noise_14B_fp16.safetensors
│   ├───📂 text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors 
│   └───📂 vae/
│       └── wan_2.1_vae.safetensors

Étapes détaillées d’opération

Diagramme d'étapes

Assurez-vous que le premier nœud Load Diffusion Model charge le modèle wan2.2_t2v_high_noise_14B_fp8_scaled.safetensors
Assurez-vous que le deuxième nœud Load Diffusion Model charge le modèle wan2.2_t2v_low_noise_14B_fp8_scaled.safetensors
Assurez-vous que le nœud Load CLIP charge le modèle umt5_xxl_fp8_e4m3fn_scaled.safetensors
Assurez-vous que le nœud Load VAE charge le modèle wan_2.1_vae.safetensors
Téléchargez l’image comme image de départ dans le nœud Load Image
Si vous devez modifier les invites (positives et négatives), modifiez-les dans le nœud CLIP Text Encoder numéro 6
(Facultatif) Dans EmptyHunyuanLatentVideo vous pouvez ajuster les paramètres de taille et le réglage du nombre total d’images de la vidéo length
Cliquez sur le bouton Run, ou utilisez le raccourci Ctrl(cmd) + Enter pour exécuter la génération vidéo

4. Flux de travail de génération vidéo première-dernière image Wan2.2 14B FLF2V

Le flux de travail première-dernière image utilise exactement le même emplacement de modèle que la section I2V

Obtention du flux de travail et des matériaux

Téléchargez la vidéo ou le flux de travail au format JSON ci-dessous et ouvrez-le dans ComfyUI

Téléchargez les matériaux ci-dessous comme entrée

Matériau d'entrée

Étapes détaillées d’opération

Diagramme d'étapes

Téléchargez l’image comme image de départ dans le premier nœud Load Image
Téléchargez l’image comme image de départ dans le deuxième nœud Load Image
Modifiez les paramètres de taille sur WanFirstLastFrameToVideo
- Le flux de travail définit par défaut une taille relativement petite pour éviter que les utilisateurs avec peu de VRAM ne consomment trop de ressources
- Si vous avez suffisamment de VRAM, vous pouvez essayer une taille d’environ 720P
Rédigez des invites appropriées selon vos images de début et de fin
Cliquez sur le bouton Run, ou utilisez le raccourci Ctrl(cmd) + Enter pour exécuter la génération vidéo

Flux de travail ComfyUI Wan2.2 Kijai WanVideoWrapper

⚠️

Ce contenu est en préparation et sera mis à jour prochainement.

Cette partie du tutoriel présentera la méthode pratique utilisant Kijai/ComfyUI-WanVideoWrapper.

Dépôt de modèle associé : https://huggingface.co/Kijai/WanVideo_comfy_fp8_scaled

Flux de travail ComfyUI version quantifiée GGUF Wan2.2

⚠️

Ce contenu est en préparation et sera mis à jour prochainement.

La version GGUF convient aux utilisateurs avec une VRAM limitée, fournissant les ressources suivantes :

Nœuds personnalisés associés : City96/ComfyUI-GGUF

Instructions d’utilisation de Lightx2v 4steps LoRA

⚠️

Ce contenu est en préparation et sera mis à jour prochainement.

Lightx2v fournit une solution d’optimisation de génération rapide :

Wan2.2-T2V-A14B-4steps-lora-rank64-V1