Guide complet d’utilisation des flux de travail Wan2.2 Fun InP ComfyUI, versions officielles et communautaires (Kijai, GGUF)
Aperçu du tutoriel
Ce tutoriel présentera de manière exhaustive les diverses méthodes d’implémentation et d’utilisation du modèle de génération de vidéo première-dernière image Wan2.2 Fun InP dans ComfyUI. Wan2.2 Fun InP est un modèle professionnel de génération de vidéo avec contrôle première-dernière image lancé par Alibaba Cloud, supportant l’entrée d’images de première et dernière image pour générer des vidéos de transition intermédiaires, apportant un contrôle créatif plus fort aux créateurs.
Versions et contenus couverts dans ce tutoriel
Versions terminées :
- ✅ Version officielle native ComfyUI - Flux de travail complet fourni par l’officiel ComfyOrg
- ✅ Version première-dernière image Wan2.2 Fun InP 14B - Génération de vidéo de contrôle première-dernière image de haute qualité
Versions en préparation :
- 🔄 Version Kijai WanVideoWrapper - Wrapper pratique développé par la communauté
- 🔄 Version quantifiée GGUF - Version optimisée pour les appareils de faible configuration
Caractéristiques techniques du modèle
Wan2.2 Fun InP est basé sur l’architecture Wan2.2 et a été spécifiquement optimisé pour la génération de vidéo avec contrôle première-dernière image, avec les caractéristiques principales suivantes :
Avantages principaux :
- Contrôle première-dernière image : Supporte l’entrée d’images de première et dernière image pour générer des vidéos de transition intermédiaires, améliorant la cohérence de la vidéo et la liberté créative
- Génération de vidéo de haute qualité : Basé sur l’architecture Wan2.2, produisant des vidéos de qualité cinématographique
- Support multi-résolution : Supporte la génération de vidéos aux résolutions 512×512, 768×768, 1024×1024, s’adaptant aux différentes exigences de scénarios
La série de modèles Wan2.2 Fun InP est basée sur la licence open source Apache2.0, supportant l’utilisation commerciale. La licence Apache2.0 vous permet d’utiliser, modifier et distribuer librement ces modèles, y compris à des fins commerciales, à condition de conserver l’avis de droit d’auteur original et le texte de la licence.
Aperçu des versions du modèle open source Wan2.2 Fun InP
Type de modèle | Nom du modèle | Paramètres | Fonction principale | Dépôt du modèle |
---|---|---|---|---|
Contrôle première-dernière image | Wan2.2-Fun-A14B-InP | 14B | Supporte l’entrée d’images de première et dernière image pour générer des vidéos de transition intermédiaires, apportant un contrôle créatif plus fort aux créateurs | 🤗 Wan2.2-Fun-A14B-InP |
Contrôle vidéo | Wan2.2-Fun-A14B-Control | 14B | Supporte différentes conditions de contrôle telles que Canny, Depth, Pose, MLSD, etc., tout en supportant également le contrôle de trajectoire | 🤗 Wan2.2-Fun-A14B-Control |
Ressources d’apprentissage officielles
Dépôts de code associés
- Dépôt GitHub VideoX-Fun - Code d’implémentation complète officiel
- Documentation officielle Wan2.2 Fun - Description détaillée du modèle et guide d’utilisation
Guide d’utilisation du flux de travail de la version officielle native Wan2.2 Fun InP ComfyUI
Description de la version
La version officielle native ComfyUI est fournie par l’équipe ComfyOrg, utilisant des fichiers de modèle reconditionnés pour garantir une compatibilité optimale avec ComfyUI. Cette version supporte à la fois le mode standard et le mode d’accélération LoRA 4 étapes Lightx2v.
Test de comparaison de performance
Voici les résultats du test utilisant le GPU RTX4090D 24GB VRAM pour une résolution de 640*640 et une longueur de 81 images :
Type de modèle | Résolution | Utilisation VRAM | Temps de première génération | Temps de deuxième génération |
---|---|---|---|---|
fp8_scaled | 640×640 | 83% | ≈ 524 secondes | ≈ 520 secondes |
fp8_scaled + accélération LoRA 4 étapes | 640×640 | 89% | ≈ 138 secondes | ≈ 79 secondes |
Puisque l’utilisation de LoRA accéléré fournit une amélioration significative de vitesse, bien qu’il y ait une certaine perte en dynamisme, il est plus convivial pour les utilisateurs avec peu de VRAM. Par conséquent, dans les deux flux de travail fournis, la version LoRA accélérée est activée par défaut. Si vous devez activer l’autre flux de travail, sélectionnez-le et utilisez Ctrl+B pour l’activer.
1. Flux de travail de génération de vidéo première-dernière image Wan2.2 Fun InP ComfyUI
Méthode d’obtention du flux de travail
Utilisez les matériaux ci-dessous comme première et dernière image
Téléchargement des fichiers de modèle
Modèle de diffusion
- wan2.2_fun_inpaint_high_noise_14B_fp8_scaled.safetensors
- wan2.2_fun_inpaint_low_noise_14B_fp8_scaled.safetensors
Lightning LoRA (Facultatif, pour l’accélération)
- wan2.2_i2v_lightx2v_4steps_lora_v1_high_noise.safetensors
- wan2.2_i2v_lightx2v_4steps_lora_v1_low_noise.safetensors
VAE
Encodeur de texte
ComfyUI/
├───📂 models/
│ ├───📂 diffusion_models/
│ │ ├─── wan2.2_fun_inpaint_high_noise_14B_fp8_scaled.safetensors
│ │ └─── wan2.2_fun_inpaint_low_noise_14B_fp8_scaled.safetensors
│ ├───📂 loras/
│ │ ├─── wan2.2_i2v_lightx2v_4steps_lora_v1_high_noise.safetensors
│ │ └─── wan2.2_i2v_lightx2v_4steps_lora_v1_low_noise.safetensors
│ ├───📂 text_encoders/
│ │ └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors
│ └───📂 vae/
│ └── wan_2.1_vae.safetensors
Étapes détaillées d’opération
Ce flux de travail utilise LoRA, veuillez vous assurer que le modèle Diffusion et LoRA correspondants sont cohérents
- Chargement du modèle bruit élevé et LoRA
- Assurez-vous que le nœud
Load Diffusion Model
charge le modèlewan2.2_fun_inpaint_high_noise_14B_fp8_scaled.safetensors
- Assurez-vous que le nœud
LoraLoaderModelOnly
charge lewan2.2_i2v_lightx2v_4steps_lora_v1_high_noise.safetensors
- Chargement du modèle bruit faible et LoRA
- Assurez-vous que le nœud
Load Diffusion Model
charge le modèlewan2.2_fun_inpaint_low_noise_14B_fp8_scaled.safetensors
- Assurez-vous que le nœud
LoraLoaderModelOnly
charge lewan2.2_i2v_lightx2v_4steps_lora_v1_low_noise.safetensors
- Assurez-vous que le nœud
Load CLIP
charge le modèleumt5_xxl_fp8_e4m3fn_scaled.safetensors
- Assurez-vous que le nœud
Load VAE
charge le modèlewan_2.1_vae.safetensors
- Téléchargement des images de première et dernière image, téléchargez respectivement les matériaux d’images de première et dernière image
- Entrez les invites dans le groupe Prompt
- Ajustement de la taille et de la longueur de la vidéo du nœud
WanFunInpaintToVideo
- Ajustez les dimensions
width
etheight
, la valeur par défaut est640
, nous avons défini une taille plus petite et vous pouvez la modifier selon vos besoins - Ajustez
length
, c’est le nombre total d’images de la vidéo. Le fps du flux de travail actuel est de 16. Si vous devez générer une vidéo de 5 secondes, vous devez définir 5*16 = 80
- Ajustez les dimensions
- Cliquez sur le bouton
Run
, ou utilisez le raccourciCtrl(cmd) + Enter
pour exécuter la génération vidéo
Flux de travail ComfyUI Wan2.2 Fun InP Kijai WanVideoWrapper
Ce contenu est en cours de préparation et sera bientôt mis à jour.
Cette partie du tutoriel présentera la méthode pratique utilisant Kijai/ComfyUI-WanVideoWrapper.
Dépôt de modèle associé : https://huggingface.co/Kijai/WanVideo_comfy_fp8_scaled
Flux de travail ComfyUI version quantifiée GGUF Wan2.2 Fun InP
Ce contenu est en cours de préparation et sera bientôt mis à jour.
La version GGUF convient aux utilisateurs avec une VRAM limitée, fournissant les ressources suivantes :
QuantStack/Wan2.2-Fun-A14B-InP-GGUF
Nœuds personnalisés associés : City96/ComfyUI-GGUF