Guide complet d’utilisation des flux de travail Wan2.2 Fun Control ComfyUI, versions officielles et communautaires (Kijai, GGUF)
Ce tutoriel présentera de manière exhaustive les diverses méthodes d’implémentation et d’utilisation du modèle de génération de contrôle vidéo Wan2.2 Fun Control dans ComfyUI. Wan2.2 Fun Control est une nouvelle génération de modèle de génération et de contrôle vidéo lancé par Alibaba Cloud. En introduisant un mécanisme innovant de codes de contrôle (Control Codes) combiné avec l’apprentissage profond et l’entrée conditionnelle multimodale, il peut générer des vidéos de haute qualité qui répondent aux conditions de contrôle prédéfinies.
Versions et contenus couverts dans ce tutoriel
Versions terminées :
- ✅ Version officielle native ComfyUI - Flux de travail complet fourni dans la documentation officielle ComfyOrg
- ✅ Version de contrôle vidéo Wan2.2 Fun Control 14B - Génération de vidéo de contrôle multimodale de haute qualité
Versions en préparation :
- 🔄 Version Kijai WanVideoWrapper - Wrapper pratique développé par la communauté
- 🔄 Version quantifiée GGUF - Version optimisée pour les appareils de faible configuration
Caractéristiques techniques du modèle
Wan2.2 Fun Control est basé sur l’architecture Wan2.2 et a été spécifiquement optimisé pour la génération de contrôle vidéo, avec les caractéristiques principales suivantes :
Avantages principaux :
- Contrôle multimodal : Prend en charge plusieurs conditions de contrôle, notamment Canny (dessin au trait), Depth (profondeur), OpenPose (pose humaine), MLSD (bords géométriques), etc., tout en prenant également en charge le contrôle de trajectoire
- Génération de vidéo de haute qualité : Basé sur l’architecture Wan2.2, produisant des vidéos de qualité cinématographique
- Prise en charge multilingue : Prend en charge la saisie d’invites multilingues y compris le chinois et l’anglais
- Prise en charge multi-résolution : Prend en charge la génération de vidéos aux résolutions 512×512, 768×768, 1024×1024, s’adaptant aux différentes exigences de scénarios
Description de la licence open source
La série de modèles Wan2.2 Fun Control est basée sur la licence open source Apache2.0, prenant en charge l’utilisation commerciale. La licence Apache2.0 vous permet d’utiliser, modifier et distribuer librement ces modèles, y compris à des fins commerciales, à condition de conserver l’avis de droit d’auteur original et le texte de la licence.
Aperçu des versions du modèle open source Wan2.2 Fun Control
Type de modèle | Nom du modèle | Paramètres | Fonction principale | Dépôt du modèle |
---|---|---|---|---|
Contrôle vidéo | Wan2.2-Fun-A14B-Control | 14B | Prend en charge différentes conditions de contrôle telles que Canny, Depth, Pose, MLSD, etc., tout en prenant également en charge le contrôle de trajectoire | 🤗 Wan2.2-Fun-A14B-Control |
Dépôts de code associés
- Dépôt GitHub VideoX-Fun - Code d’implémentation complète officiel
- Documentation officielle Wan2.2 Fun Control - Description détaillée du modèle et guide d’utilisation
Guide d’utilisation du flux de travail de la version officielle native Wan2.2 Fun Control ComfyUI
Description de la version
La version officielle native ComfyUI est fournie par l’équipe ComfyOrg, utilisant des fichiers de modèle reconditionnés pour garantir une compatibilité optimale avec ComfyUI. Cette version prend en charge à la fois le mode standard et le mode d’accélération LoRA 4 étapes Lightx2v.
Test de comparaison de performance
Voici les résultats du test utilisant le GPU RTX4090D 24GB VRAM pour une résolution de 640*640 et une longueur de 81 images :
Type de modèle | Résolution | Utilisation VRAM | Temps de première génération | Temps de deuxième génération |
---|---|---|---|---|
fp8_scaled | 640×640 | 83% | ≈ 524 secondes | ≈ 520 secondes |
fp8_scaled + accélération LoRA 4 étapes | 640×640 | 89% | ≈ 138 secondes | ≈ 79 secondes |
Puisque LoRA 4 étapes est utilisé, l’expérience utilisateur pour les utilisateurs utilisant le flux de travail pour la première fois est meilleure, mais cela peut entraîner une perte de dynamisme de la vidéo. Nous avons activé la version LoRA accélérée par défaut. Si vous devez activer un autre ensemble de flux de travail, sélectionnez-le et utilisez Ctrl+B pour l’activer.
1. Flux de travail de génération de contrôle vidéo Wan2.2 Fun Control ComfyUI
Méthode d’obtention du flux de travail
Téléchargez la vidéo ou le fichier JSON ci-dessous et faites-le glisser dans ComfyUI pour charger le flux de travail correspondant
Télécharger le flux de travail au format JSON
Veuillez télécharger les images et vidéos ci-dessous, que nous utiliserons comme entrée.
Ici nous utilisons une vidéo prétraitée qui peut être directement utilisée pour la génération de vidéo de contrôle
Téléchargement des fichiers de modèle
Vous pouvez trouver les modèles suivants dans Wan_2.2_ComfyUI_Repackaged
Modèle de diffusion
- wan2.2_fun_control_high_noise_14B_fp8_scaled.safetensors
- wan2.2_fun_control_low_noise_14B_fp8_scaled.safetensors
Wan2.2-Lightning LoRA (Facultatif, pour l’accélération)
- wan2.2_i2v_lightx2v_4steps_lora_v1_high_noise.safetensors
- wan2.2_i2v_lightx2v_4steps_lora_v1_low_noise.safetensors
VAE
Encodeur de texte
ComfyUI/
├───📂 models/
│ ├───📂 diffusion_models/
│ │ ├─── wan2.2_fun_control_low_noise_14B_fp8_scaled.safetensors
│ │ └─── wan2.2_fun_control_high_noise_14B_fp8_scaled.safetensors
│ ├───📂 loras/
│ │ ├─── wan2.2_i2v_lightx2v_4steps_lora_v1_high_noise.safetensors
│ │ └─── wan2.2_i2v_lightx2v_4steps_lora_v1_low_noise.safetensors
│ ├───📂 text_encoders/
│ │ └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors
│ └───📂 vae/
│ └── wan_2.1_vae.safetensors
Étapes détaillées d’opération
Ce flux de travail utilise LoRA, veuillez vous assurer que le modèle Diffusion et LoRA correspondants sont cohérents. Les modèles et LoRA à bruit élevé et faible doivent être utilisés de manière correspondante.
- Chargement du modèle bruit élevé et LoRA
- Assurez-vous que le nœud
Load Diffusion Model
charge le modèlewan2.2_fun_control_high_noise_14B_fp8_scaled.safetensors
- Assurez-vous que le nœud
LoraLoaderModelOnly
charge lewan2.2_i2v_lightx2v_4steps_lora_v1_high_noise.safetensors
- Chargement du modèle bruit faible et LoRA
- Assurez-vous que le nœud
Load Diffusion Model
charge le modèlewan2.2_fun_control_low_noise_14B_fp8_scaled.safetensors
- Assurez-vous que le nœud
LoraLoaderModelOnly
charge lewan2.2_i2v_lightx2v_4steps_lora_v1_low_noise.safetensors
- Assurez-vous que le nœud
Load CLIP
charge le modèleumt5_xxl_fp8_e4m3fn_scaled.safetensors
- Assurez-vous que le nœud
Load VAE
charge le modèlewan_2.1_vae.safetensors
- Téléchargez l’image de départ dans le nœud
Load Image
- Dans le deuxième nœud
Load video
, contrôlez la vidéo de pose. La vidéo fournie a été prétraitée et peut être utilisée directement - Puisque la vidéo que nous fournissons est une vidéo de pose prétraitée, les nœuds correspondants de prétraitement d’image vidéo doivent être désactivés. Vous pouvez les sélectionner et utiliser Ctrl + B` pour les désactiver
- Modifiez Prompt - le chinois et l’anglais sont tous deux pris en charge
- Dans
Wan22FunControlToVideo
, modifiez la taille de la vidéo correspondante. La valeur par défaut est définie à une résolution de 640*640 pour éviter une consommation de temps excessive pour les utilisateurs avec peu de VRAM utilisant ce flux de travail - Cliquez sur le bouton
Run
, ou utilisez le raccourciCtrl(cmd) + Enter
pour exécuter la génération vidéo
Notes supplémentaires
Puisque dans les nœuds intégrés de ComfyUI, les nœuds de préprocesseur n’ont que des préprocesseurs Canny, vous pouvez utiliser des ComfyUI-comfyui_controlnet_aux similaires pour implémenter d’autres types de prétraitement d’image
Flux de travail ComfyUI Wan2.2 Fun Control Kijai WanVideoWrapper
Ce contenu est en cours de préparation et sera bientôt mis à jour.
Cette partie du tutoriel présentera la méthode pratique utilisant Kijai/ComfyUI-WanVideoWrapper.
Dépôt de modèle associé : https://huggingface.co/Kijai/WanVideo_comfy_fp8_scaled
Flux de travail ComfyUI version quantifiée GGUF Wan2.2 Fun Control
Ce contenu est en cours de préparation et sera bientôt mis à jour.
La version GGUF convient aux utilisateurs avec une VRAM limitée, fournissant les ressources suivantes :
QuantStack/Wan2.2-Fun-A14B-Control-GGUF
Nœuds personnalisés associés : City96/ComfyUI-GGUF