Aucun article pour le moment. Revenez plus tard !

Guide complète du flux de travail Wan2.1 Fun Control dans ComfyUI

Wan2.1-Fun-Control est la dernière capacité de contrôle vidéo lancée par l’équipe d’Alibaba, qui peut réaliser des capacités de contrôle vidéo telles que la profondeur, openpose et canny. Actuellement, ce modèle est divisé en deux catégories : modèles de 1.3B et 14B.

Wan2.1-Fun-1.3B-Control
Wan2.1-Fun-14B-Control
Dépôt de code correspondant : VideoX-Fun

Ce guide couvrira deux types de flux de travail :

Flux de travail natif de ComfyUI

1. Entièrement natif (sans dépendre de nœuds personnalisés tiers)
1. Version améliorée du flux de travail natif (utilisant des nœuds personnalisés)

Flux de travail utilisant le ComfyUI-WanVideoWrapper de Kijai

Les deux flux de travail sont essentiellement identiques en termes de modèle, mais j’ai utilisé des modèles de différentes sources pour mieux correspondre aux conditions et à l’utilisation du flux de travail d’origine.

Pour les opérations vidéo, vous pouvez utiliser le paquet de nœuds personnalisés ComfyUI-VideoHelperSuite pour effectuer des chargements vidéo, des sauvegardes au format mp4, des fusions vidéo, etc.

Pour l’installation des plugins, veuillez vous référer à ce guide sur comment installer des nœuds personnalisés.

Flux de travail natif Wan2.1 Fun Control dans ComfyUI

Actuellement, ComfyUI prend en charge nativement le modèle Wan Fun Control, mais jusqu’à présent (2025-04-10), aucun exemple de flux de travail correspondant n’a été officiellement publié.

Avant de commencer, assurez-vous que votre version de ComfyUI est au moins postérieure à ce commit pour pouvoir trouver le nœud WanFunControlToVideo. Veuillez consulter comment mettre à jour ComfyUI pour mettre à jour votre version de ComfyUI.

1.1 Téléchargement du fichier de flux de travail Wan2.1 Fun Control

1.1.1 Fichier de flux de travail

Téléchargez l’image ci-dessous et faites-la glisser dans ComfyUI pour charger le flux de travail correspondant et vous indiquer le téléchargement du modèle correspondant.

Flux de travail natif Wan Fun Control dans ComfyUI

Téléchargement au format Json

1.1.2 Images de départ et vidéo de contrôle

Téléchargez les images et vidéos ci-dessous, que nous utiliserons comme conditions d’entrée.

Image de référence

💡

Ici, je fournis une vidéo de contrôle prétraitée, simplement pour ne pas dépendre de nœuds personnalisés tiers et utiliser uniquement des nœuds natifs.
Vous pouvez utiliser des nœuds personnalisés comme ComfyUI-comfyui_controlnet_aux pour effectuer le prétraitement de la vidéo.

1.2 Installation manuelle des modèles

Si le modèle correspondant n’a pas été téléchargé avec succès, voici les adresses de téléchargement des modèles correspondants.

Modèles de diffusion : choisissez entre 1.3B ou 14B, le fichier de 14B est plus volumineux, offre de meilleures performances, mais nécessite également plus de ressources système.

Wan2.1-Fun-1.3B-Control : téléchargez et renommez en Wan2.1-Fun-1.3B-Control.safetensors
Wan2.1-Fun-14B-Control : téléchargez et renommez en Wan2.1-Fun-14B-Control.safetensors

Encodeurs de texte : choisissez l’un des deux modèles ci-dessous, le modèle fp16 est plus volumineux et exige plus de performances.

VAE

wan_2.1_vae.safetensors

Vision CLIP : utilisé pour extraire les caractéristiques des images.

clip_vision_h.safetensors

Emplacement de sauvegarde des fichiers

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 diffusion_models/
│   │   └── Wan2.1-Fun-1.3B-Control.safetensors        # Ou la version que vous choisissez
│   ├── 📂 text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors    # Ou la version que vous choisissez
│   └── 📂 vae/
│   │   └── wan_2.1_vae.safetensors
│   └── 📂 clip_vision/
│       └──  clip_vision_h.safetensors

1.3 Exécution du flux de travail étape par étape

Flux de travail natif Wan Fun Control dans ComfyUI

Assurez-vous que le nœud Load Diffusion Model a chargé le modèle Wan2.1-Fun-1.3B-Control.safetensors
Assurez-vous que le nœud Load CLIP a chargé le modèle umt5_xxl_fp8_e4m3fn_scaled.safetensors
Assurez-vous que le nœud Load VAE a chargé le modèle wan_2.1_vae.safetensors
Assurez-vous que le nœud Load CLIP Vision a chargé le modèle clip_vision_h.safetensors
Chargez l’image d’entrée fournie précédemment comme image de départ dans le nœud Load Image
Téléchargez la vidéo fournie précédemment dans le nœud Load Image comme condition de contrôle
(Optionnel) Modifiez les mots-clés vidéo dans le nœud CLIP Text Encoder
Cliquez sur le bouton Run, ou utilisez le raccourci Ctrl(cmd) + Enter pour exécuter la génération de vidéo

1.4 Analyse du flux de travail

Le flux de travail natif se concentre principalement sur l’acquisition des images vidéo, le nœud correspondant WanFunControlToVideo propose une longueur par défaut de 81 (ce qui générera une vidéo de 5 secondes à 15 images par seconde), alors que la vidéo de contrôle que j’ai fournie ne contient que 49 images, j’ai donc effectué des ajustements. De plus, vous pourriez remarquer que les personnages dans la vidéo générée semblent soudainement zoomés, cela est dû à l’incohérence de taille entre l’image de départ et la vidéo de contrôle, ce qui a entraîné un recadrage et un agrandissement pendant le traitement.

2. Version ajustée du flux de travail natif Wan2.1 Fun Control

Étant donné que le flux de travail entièrement natif n’est pas très pratique en termes de taille vidéo et de calcul du nombre d’images, j’ai utilisé certains nœuds du paquet de nœuds personnalisés dans cette version améliorée du flux de travail :

ComfyUI-KJNodes pour ajuster la taille de la vidéo et obtenir le nombre d’images
ComfyUI-comfyui_controlnet_aux : pour le prétraitement des images vidéo

Avant de commencer, assurez-vous d’avoir installé ces deux paquets de nœuds personnalisés, ou utilisez ComfyUI-Manager pour les installer après le chargement du flux de travail.

2.1 Téléchargement du fichier de flux de travail

2.1.1 Téléchargement du fichier de flux de travail

Téléchargez l’image ci-dessous et faites-la glisser dans ComfyUI pour charger le flux de travail correspondant et être invité à télécharger les modèles associés.

2.1.2 Téléchargement de la vidéo d’entrée

Téléchargez les images et vidéos ci-dessous pour les conditions d’entrée. Image de référence

En raison du manque de temps, j’ai utilisé cette vidéo avec un effet de zoom soudain comme entrée.

2.2 Exécution du flux de travail étape par étape

Flux de travail natif Wan Fun Control dans ComfyUI

Téléchargez l’image d’entrée fournie dans le nœud Load Image de la frame de départ
Téléchargez la vidéo fournie dans le nœud Load Image de la vidéo de contrôle
Sélectionnez le préprocesseur que vous souhaitez utiliser sur AIO Aux Preprocessor (le modèle correspondant sera téléchargé depuis Hugging Face lors de la première exécution)
Si vous devez ajuster la taille, modifiez les paramètres de taille dans le nœud Resize Image, en veillant à ce que les deux nœuds soient cohérents
Cliquez sur le bouton Run, ou utilisez le raccourci Ctrl(cmd) + Enter pour exécuter la génération de vidéo

💡

Actuellement, le nœud Load Image ne prend pas en charge les vidéos mp4. Si vous souhaitez avoir une vidéo d’entrée, vous pouvez utiliser le nœud Load Video (Upload) de ComfyUI-VideoHelperSuite pour gérer divers formats de vidéo.

3. Extensions associées

Vous pouvez ajouter des nœuds de génération d’images à ces flux de travail pour générer la vidéo finale sans dépendre d’images de référence d’entrée.

Flux de travail Kijai Wan Fun Control

Nous utiliserons le plugin ComfyUI-WanVideoWrapper de Kijai pour compléter l’exemple de Fun-Control. Vous pouvez trouver le flux de travail original fourni par Kijai ici.

Le flux de travail impliqué dans ce guide a été réorganisé par ComfyUI Wiki.

Cette section du flux de travail sera divisée en deux catégories :

Flux de travail de contrôle pour image de texte à vidéo utilisant uniquement des conditions de contrôle vidéo
Flux de travail de contrôle pour génération de vidéo de référence d’image qui analyse et extrait des caractéristiques d’images de référence en utilisant Clip_vision et ajoute des conditions de contrôle vidéo

Installation associée

Installation de nœud personnalisé

Vous devez installer les plugins suivants pour garantir que le flux de travail fonctionne sans problème :

ComfyUI-WanVideoWrapper : doit être mis à jour vers la dernière version
ComfyUI-VideoHelperSuite
ComfyUI-KJNodes
ComfyUI-comfyui_controlnet_aux : pour le prétraitement des images vidéo, ou vous pouvez le remplacer par vos nœuds de prétraitement d’images couramment utilisés

Vous pouvez utiliser le gestionnaire ComfyUI pour mettre à jour ou installer les nœuds personnalisés mentionnés ci-dessus, ou consulter comment installer des nœuds personnalisés pour compléter l’installation correspondante.

ComfyUI-comfyui_controlnet_aux téléchargera le modèle correspondant lors de la première exécution, assurez-vous que vous pouvez accéder à huggingface normalement.

Installation du modèle

Wan2.1 Fun Control Fournit deux modèles : 1.3B et 14B, vous pouvez choisir le modèle approprié en fonction des performances de votre appareil.

Wan2.1-Fun-1.3B-Control : renommer en Wan2.1-Fun-1.3B-Control.safetensors après le téléchargement
Wan2.1-Fun-14B-Control : renommer en Wan2.1-Fun-14B-Control.safetensors après le téléchargement
Kijai/Wan2.1-Fun-Control-14B_fp8_e4m3fn.safetensors

Choisissez une version de encodeurs de texte à télécharger :

VAE

CLIP Vision

clip_vision_h.safetensors

Emplacement de sauvegarde du fichier

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 diffusion_models/
│   │   └── Wan2.1-Fun-1.3B-Control.safetensors      # Ou la version que vous choisissez
│   ├── 📂 text_encoders/
│   │   └─── umt5-xxl-enc-bf16.safetensors           # Ou la version que vous choisissez
│   ├── 📂 vae/
│   │   └── Wan2_1_VAE_bf16.safetensors
│   └── 📂clip_vision/
│       └──  clip_vision_h.safetensors

1. Flux de travail de contrôle vidéo texte-à-vidéo

1.1 Télécharger les fichiers du flux de travail

Téléchargez l’image ci-dessous et faites-la glisser dans ComfyUI pour charger le flux de travail correspondant.

Téléchargez au format JSON.

Téléchargez la vidéo ci-dessous comme vidéo d’entrée.

1.2 Compléter les étapes du flux de travail

Téléchargez l’image ci-dessous et faites-la glisser dans ComfyUI pour charger le flux de travail correspondant.

Diagramme de flux Wan_fun_control_t2v

Assurez-vous que les nœuds correspondants ont chargé les modèles appropriés, en utilisant les versions que vous avez téléchargées.

Assurez-vous que le nœud Chargeur de modèles WanVideo a chargé le modèle Wan2.1-Fun-1.3B-Control.safetensors.
Assurez-vous que le nœud Charger l'encodeur de texte WanVideo T5 a chargé le modèle umt5-xxl-enc-bf16.safetensors.
Assurez-vous que le nœud Chargeur de VAE WanVideo a chargé le modèle Wan2_1_VAE_bf16.safetensors.
Dans le nœud Préprocesseur AIO AuxAux, sélectionnez le nœud Préprocesseur Openpose.
Dans le nœud Charger vidéo (Télécharger), téléchargez la vidéo d’entrée que nous avons fournie précédemment.
Dans l’Encodeur de texte WanVideo, entrez l’invite pour la vidéo que vous souhaitez générer (vous pouvez la laisser par défaut).
Cliquez sur le bouton File, ou utilisez le raccourci Ctrl(cmd) + Enter pour exécuter la génération de la vidéo.

1.3 Analyse du flux de travail

Cette version du flux de travail encode principalement les conditions de l’image prétraitée et génère ensuite la vidéo. Dans le nœud de prétraitement d’images Préprocesseur Openpose, vous pouvez choisir plusieurs méthodes de prétraitement, telles que Openpose, Depth, Canny, etc. Ici, nous choisissons la méthode de prétraitement Openpose pour générer le contrôle et l’encodage du mouvement du personnage correspondant.

2. Flux de travail de génération de vidéo d’image de référence de contrôle vidéo

Ce flux de travail charge principalement un modèle clip_vision_h.safetensors, qui peut comprendre efficacement le contenu de l’image de référence. Cependant, il ne génère pas la vidéo en préservant complètement la cohérence, mais génère la vidéo basée sur les caractéristiques de l’image de référence.

2.1 Télécharger les fichiers du flux de travail

Téléchargez l’image ci-dessous et faites-la glisser dans ComfyUI pour charger le flux de travail correspondant.

Téléchargez au format JSON.

Téléchargez la vidéo et les images ci-dessous, que nous utiliserons comme conditions d’entrée.

Image de référence

2.2 Compléter les étapes du flux de travail

Diagramme de flux Wan_fun_control_i2v

Assurez-vous que le nœud Chargeur de modèles WanVideo a chargé le modèle Wan2.1-Fun-1.3B-Control.safetensors.
Assurez-vous que le nœud Charger l'encodeur de texte WanVideo T5 a chargé le modèle umt5-xxl-enc-bf16.safetensors.
Assurez-vous que le nœud Chargeur de VAE WanVideo a chargé le modèle Wan2_1_VAE_bf16.safetensors.
Dans le nœud Charger vidéo (Télécharger), téléchargez la vidéo d’entrée que nous avons fournie précédemment.
Dans le nœud Préprocesseur AIO AuxAux, sélectionnez le nœud Préprocesseur Openpose.
Dans le nœud Charger Vision CLIP, assurez-vous que le modèle clip_vision_h.safetensors est chargé, qui sera utilisé pour extraire les caractéristiques de l’image de référence.
Dans le nœud Charger Image, téléchargez l’image de référence fournie précédemment.
Dans l’Encodeur de texte WanVideo, entrez l’invite pour la vidéo que vous souhaitez générer (vous pouvez la laisser par défaut).
Cliquez sur le bouton File, ou utilisez le raccourci Ctrl(cmd) + Enter pour exécuter la génération de la vidéo.

2.3 Analyse du flux de travail

Étant donné que Kijai a mis à jour les nœuds correspondants, gardez à l’esprit que le nœud Encodage d'image à vidéo WanVideo a une option appelée fun_model qui doit être configurée sur vrai.
Comparé aux autres, utiliser les caractéristiques de l’image de référence sera plus approprié, donc continuer à utiliser une image de référence reste nécessaire. Cependant, étant donné qu’il n’extrait que les caractéristiques de l’image, il ne peut pas maintenir complètement la cohérence du personnage.
Dans la section de prétraitement des images, vous pouvez essayer de combiner plusieurs nœuds de prétraitement pour générer des conditions de contrôle plus riches.