Skip to content
Aidez à Construire une Meilleure Base de Connaissances ComfyUI Devenir Parrain
Aucun article pour le moment. Revenez plus tard !

Flux de travail Wan2.1 ComfyUI

Wan2.1, publié en open source par Alibaba en février 2025, est un modèle de référence dans le domaine de la génération vidéo, avec la licence Apache 2.0. Il propose deux versions : 14B (14 milliards de paramètres) et 1.3B (1,3 milliard de paramètres), couvrant des tâches comme le texte vers vidéo (T2V), l’image vers vidéo (I2V) et plus encore.

De plus, des versions GGUF et quantifiées ont été créées par la communauté :

Ce tutoriel vous guidera à travers les flux de travail liés à Wan2.1, y compris :

  • Flux de travail Wan2.1 pris en charge nativement par ComfyUI
  • Version de Kijai
  • Version GGUF de City96
💡

Tous les fichiers de flux de travail utilisés dans ce tutoriel contiennent des informations sur le flux correspondant. Vous pouvez les glisser directement dans ComfyUI pour charger le flux de travail et les informations du modèle. Après le message pop-up, cliquez sur le bouton pour télécharger le modèle correspondant. Si vous ne pouvez pas télécharger le modèle, veuillez consulter la section d’installation manuelle pour installer les modèles. Tous les vidéos générées seront enregistrées dans le répertoire ComfyUI/output. Bien que Wan2.1 ait séparé les modèles 480P et 720P, les flux de travail correspondants ne diffèrent que par les modèles et les dimensions du canevas. Vous pouvez ajuster l’autre version du flux de travail en fonction du flux de travail 720P ou 480P correspondant.

Exemples de flux de travail natif de Wan2.1 pour ComfyUI

Les flux de travail suivants proviennent du blog officiel de ComfyUI. Actuellement, ComfyUI prend en charge nativement Wan2.1. Pour utiliser la version de support natif officiel, veuillez mettre à jour votre ComfyUI à la dernière version en suivant la section Comment mettre à jour ComfyUI pour la mise à jour. ComfyUI Wiki a organisé les flux de travail originaux.

Après la mise à jour de ComfyUI à la dernière version, vous pouvez trouver le modèle de flux de travail Wan2.1 dans le menu Workflows -> Workflow Templates.

Wan2.1 Workflow Template

Tous les fichiers de flux de travail de cette version proviennent de Comfy-Org/Wan_2.1_ComfyUI_repackaged

Dans le cadre des modèles de diffusion, Comfy-org propose plusieurs versions. Si la version du modèle utilisée dans cet article a des exigences matérielles élevées, vous pouvez choisir la version qui vous convient le mieux.

  • i2v signifie image vers vidéo, et t2v signifie texte vers vidéo.
  • 14B et 1.3B correspondent au nombre de paramètres, un nombre plus élevé implique des exigences matérielles plus élevées.
  • bf16, fp16 et fp8 représentent différentes précisions, une précision plus élevée nécessite également des performances matérielles plus élevées.
    • Le bf16 peut nécessiter un support GPU de l’architecture Ampere ou supérieure.
    • Le fp16 est plus largement pris en charge.
    • Le fp8 a la précision la plus basse, nécessitant le moins de performances matérielles, mais la qualité sera également inférieure.
  • En général, plus la taille du fichier est grande, plus les exigences matérielles de l’appareil sont élevées.

1. Wan2.1 Flux de travail de génération vidéo

1.1 Téléchargement du fichier de flux de travail Wan2.1

Téléchargez l’image ci-dessous et faites-la glisser dans ComfyUI ou utilisez le menu Workflows -> Open(Ctrl+O) pour charger le flux de travail.

Flux de travail Wan2.1 génération vidéo

Téléchargement du fichier au format Json

1.2 Installation manuelle du modèle

Si le fichier de flux de travail ci-dessus ne parvient pas à télécharger le modèle, veuillez télécharger le fichier de modèle ci-dessous et le sauvegarder à l’emplacement correspondant.

💡

Il existe plusieurs fichiers pour différents types de modèles, veuillez en télécharger un seul. ComfyUI Wiki a déjà classé les fichiers par ordre d’exigences de performance GPU, du plus élevé au plus bas. Vous pouvez consulter ici pour voir tous les fichiers de modèles.

Sélectionnez un fichier de modèle Diffusion models à télécharger,

Sélectionnez une version à télécharger depuis Text encoders,

VAE

Emplacement de sauvegarde des fichiers

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └── wan2.1_t2v_14B_fp16.safetensors              # ou la version que vous avez choisie
│   ├── text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors      # ou la version que vous avez choisie
│   └── vae/
│       └──  wan_2.1_vae.safetensors

1.3 Terminer l’exécution du flux de travail

Étapes du flux de travail ComfyUI Wan2.1

  1. Assurez-vous que le nœud Load Diffusion Model charge le modèle wan2.1_t2v_1.3B_fp16.safetensors
  2. Assurez-vous que le nœud Load CLIP charge le modèle umt5_xxl_fp8_e4m3fn_scaled.safetensors
  3. Assurez-vous que le nœud Load VAE charge le modèle wan_2.1_vae.safetensors
  4. Vous pouvez entrer le contenu de la description vidéo que vous souhaitez générer dans le nœud CLIP Text Encoder
  5. Cliquez sur le bouton Queue, ou utilisez le raccourci Ctrl(cmd) + Enter pour exécuter la génération de vidéo

2. Flux de travail de génération vidéo Wan2.1

2.1 Flux de travail de génération vidéo Wan2.1 14B

Téléchargement du fichier de flux de travail Veuillez cliquer sur le bouton ci-dessous pour télécharger le flux de travail correspondant, puis faites-le glisser dans l’interface ComfyUI ou utilisez le menu Workflows -> Open(Ctrl+O) pour le charger

Flux de travail Wan2.1 génération vidéo 14B 480P

Téléchargement du fichier au format Json

Ce flux de travail est essentiellement identique à la version 480P, seule la diffusion model utilisée et la taille du nœud WanImageToVideo diffèrent.

Téléchargez l’image ci-dessous comme image d’entrée Exemple d'image d'entrée pour le flux de travail Wan2.1 génération vidéo 14B 480P

2.2 Téléchargement manuel du modèle

Si le fichier de flux de travail ci-dessus ne parvient pas à télécharger le modèle, veuillez télécharger le fichier de modèle ci-dessous et le sauvegarder à l’emplacement correspondant.

Diffusion models

Version 720P

Version 720P

Text encoders

VAE

CLIP Vision

Emplacement de sauvegarde des fichiers

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └── wan2.1_i2v_480p_14B_fp16.safetensors          # ou la version que vous avez choisie
│   ├── text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors       # ou la version que vous avez choisie
│   └── vae/
│   │   └──  wan_2.1_vae.safetensors
│   └── clip_vision/
│       └──  clip_vision_h.safetensors                 

2.3 Compléter le flux de travail Wan2.1 480P pour la génération de vidéos à partir d’images

Étapes du flux de travail ComfyUI Wan2.1

  1. Assurez-vous que le nœud Load Diffusion Model charge le modèle wan2.1_i2v_480p_14B_fp16.safetensors
  2. Assurez-vous que le nœud Load CLIP charge le modèle umt5_xxl_fp8_e4m3fn_scaled.safetensors
  3. Assurez-vous que le nœud Load VAE charge le modèle wan_2.1_vae.safetensors
  4. Assurez-vous que le nœud Load CLIP Vision charge le modèle clip_vision_h.safetensors
  5. Dans le nœud Load Image, chargez l’image d’entrée fournie précédemment
  6. Dans le nœud CLIP Text Encoder, entrez le contenu de la description vidéo que vous souhaitez générer, ou utilisez l’exemple fourni dans le flux de travail
  7. Cliquez sur le bouton Queue, ou utilisez le raccourci Ctrl(cmd) + Enter pour exécuter la génération de vidéo

Kijai Wan2.1 Version quantifiée Workflow

Cette version est fournie par Kijai et nécessite l’utilisation des nœuds personnalisés suivants.

Vous devez installer les trois nœuds suivants :

Avant de commencer, veuillez utiliser ComfyUI-Manager ou consulter le tutoriel d’installation des nœuds personnalisés ComfyUI pour installer ces trois nœuds personnalisés.

Dépôt de modèles : Kijai/WanVideo_comfy

Ce dépôt propose plusieurs versions de modèles. Veuillez choisir le modèle approprié en fonction des performances de votre appareil. En général, plus la taille est grande, meilleur est l’effet, mais cela nécessite également de meilleures performances de l’appareil.

💡

Si le workflow natif de ComfyUI fonctionne bien sur votre appareil, vous pouvez également utiliser les modèles fournis par Comfy Org. Dans cet exemple, j’utiliserai le modèle fourni par Kijai.

1. Workflow de génération d’images à partir de texte Kijai

1.1 Téléchargement du workflow de génération d’images à partir de texte Kijai Wan2.1

Veuillez cliquer sur le bouton ci-dessous pour télécharger le workflow correspondant, puis faites-le glisser dans l’interface ComfyUI ou utilisez la barre de menu Workflows -> Open(Ctrl+O) pour le charger.

Les deux fichiers de flux de travail ci-dessus sont essentiellement identiques, le fichier numéro 2 contient des informations supplémentaires optionnelles.

1.2 Installation manuelle des modèles

💡

Visitez : https://huggingface.co/Kijai/WanVideo_comfy/tree/main pour voir la taille des fichiers, généralement, plus la taille du fichier est grande, meilleur est l’effet, mais cela nécessite également de meilleures performances de l’appareil.

Diffusion models

Text encoders

VAE

Emplacement de sauvegarde des fichiers

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └── Wan2_1-T2V-14B_fp8_e4m3fn.safetensors             # ou la version que vous avez choisie
│   ├── text_encoders/
│   │   └─── umt5-xxl-enc-bf16.safetensors                    # ou la version que vous avez choisie
│   └─── vae/
│       └── Wan2_1_VAE_bf16.safetensors                      # ou la version que vous avez choisie

1.3 Exécution du flux de travail étape par étape

Étapes du flux de travail de génération d'images à partir de texte Wan2.1

Assurez-vous que les nœuds chargent les modèles correspondants, utilisez la version que vous avez téléchargée

  1. Assurez-vous que le nœud WanVideo Vae Loader charge le modèle Wan2_1_VAE_bf16.safetensors
  2. Assurez-vous que le nœud WanVideo Model Loader charge le modèle Wan2_1-T2V-14B_fp8_e4m3fn.safetensors
  3. Assurez-vous que le nœud Load WanVideo T5 TextEncoder charge le modèle umt5-xxl-enc-bf16.safetensors
  4. Dans le nœud WanVideo TextEncode, entrez le contenu de la description vidéo que vous souhaitez générer
  5. Cliquez sur le bouton Queue, ou utilisez le raccourci Ctrl(cmd) + Enter pour exécuter la génération de vidéo

Vous pouvez modifier la taille de WanVideo Empty Embeds pour modifier la taille de l’image

2. Kiai Wan2.1 Workflow de génération de vidéos à partir d’images

2.1 Téléchargement du fichier de workflow

Téléchargez l’image ci-dessous que nous allons utiliser comme image d’entrée Image d'entrée pour le workflow de génération de vidéos à partir d'images ComfyUI wan2.1

2.2 Téléchargement manuel des modèles

💡

Vous pouvez également utiliser les modèles de la section ComfyUI Native, il semble que seul le text_encoder ne soit pas utilisable.

Modèles de diffusion Version 720P

Version 480P

Modèles de text encoders

Modèles VAE

Vision CLIP

Emplacement de sauvegarde des fichiers

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └── Wan2_1-I2V-14B-720P_fp8_e4m3fn.safetensors            # ou la version que vous avez choisie
│   ├── text_encoders/
│   │   └─── umt5-xxl-enc-bf16.safetensors                        # ou la version que vous avez choisie
│   ├── vae/
│   │   └──  Wan2_1_VAE_fp32.safetensors                          # ou la version que vous avez choisie
│   └── clip_vision/
│       └──  clip_vision_h.safetensors 

2.3 Exécution du flux de travail étape par étape

Diagramme de flux de travail pour la génération de vidéos à partir d'images Wan2.1 480P

Veuillez vous référer aux numéros sur l’image pour vous assurer que les nœuds et les modèles correspondants sont chargés afin de garantir le bon fonctionnement du modèle.

  1. Assurez-vous que le nœud WanVideo Model Loader a chargé le modèle Wan2_1-I2V-14B-720P_fp8_e4m3fn.safetensors.
  2. Assurez-vous que le nœud Load WanVideo T5 TextEncoder a chargé le modèle umt5-xxl-enc-bf16.safetensors.
  3. Assurez-vous que le nœud WanVideo Vae Loader a chargé le modèle Wan2_1_VAE_fp32.safetensors.
  4. Assurez-vous que le nœud Load CLIP Vision a chargé le modèle clip_vision_h.safetensors.
  5. Chargez l’image d’entrée fournie précédemment dans le nœud Load Image.
  6. Conservez les paramètres par défaut ou modifiez les mots-clés dans WanVideo TextEncode pour ajuster l’effet visuel.
  7. Cliquez sur le bouton Queue, ou utilisez le raccourci Ctrl(cmd) + Enter pour exécuter la génération de vidéos.

Flux de travail de la version Wan2.1 GGUF

Dans cette section, nous utiliserons le modèle de version GGUF pour réaliser la génération de vidéos. Dépôt du modèle : https://huggingface.co/city96/Wan2.1-T2V-14B-gguf/tree/main

Nous avons besoin de ComfyUI-GGUF pour charger le modèle correspondant. Veuillez utiliser ComfyUI-Manager ou consulter le tutoriel d’installation des nœuds personnalisés ComfyUI pour installer les nœuds personnalisés nécessaires avant de commencer.

💡

Ce flux de travail est essentiellement identique à celui de la version native de ComfyUI, sauf que nous utilisons la version GGUF et le chargement du modèle GGUF pour réaliser la génération de vidéos. Je fournirai également une liste complète des modèles dans cette section pour éviter que certains utilisateurs ne consultent directement les exemples de cette partie.

1. Flux de travail de génération de vidéos à partir de texte de la version Wan2.1 GGUF

1.1 Téléchargement du fichier de flux de travail

Flux de travail de génération de vidéos à partir de texte de la version Wan2.1 GGUF

1.2 Téléchargement manuel des modèles

Choisissez un fichier de modèle Diffusion models à télécharger ci-dessous. City96 propose plusieurs versions différentes de modèles. Veuillez visiter https://huggingface.co/city96/Wan2.1-T2V-14B-gguf/tree/main pour télécharger une version qui vous convient. En général, plus la taille est grande, meilleur est l’effet, mais cela nécessite également plus de performances de l’appareil.

Choisissez une version à télécharger dans Text encoders.

VAE

Emplacement de sauvegarde des fichiers

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └── wan2.1-t2v-14b-Q4_K_M.gguf                    # ou la version que vous avez choisie
│   ├── text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors       # ou la version que vous avez choisie
│   └── vae/
│       └──  wan_2.1_vae.safetensors

1.3 Exécution du flux de travail étape par étape

Flux de travail de génération de vidéos à partir de texte de la version Wan2.1 GGUF

  1. Assurez-vous que le nœud Unet Loader(GGUF) a chargé le modèle wan2.1-t2v-14b-Q4_K_M.gguf
  2. Assurez-vous que le nœud Load CLIP a chargé le modèle umt5_xxl_fp8_e4m3fn_scaled.safetensors
  3. Assurez-vous que le nœud Load VAE a chargé le modèle wan_2.1_vae.safetensors
  4. Vous pouvez entrer le contenu de la description vidéo que vous souhaitez générer dans le nœud CLIP Text Encoder
  5. Cliquez sur le bouton Queue, ou utilisez le raccourci Ctrl(cmd) + Enter pour exécuter la génération de vidéos

2. Flux de travail de la version Wan2.1 GGUF de génération de vidéos à partir d’images

2.1 Téléchargement du fichier de flux de travail

Flux de travail de génération de vidéos à partir d'images de la version Wan2.1 GGUF 720P

2.2 Téléchargement manuel des modèles

Choisissez un fichier de modèle Diffusion models à télécharger ci-dessous. City96 propose plusieurs versions différentes de modèles. Veuillez visiter le dépôt correspondant pour télécharger la version qui vous convient. En général, plus la taille est grande, meilleur est l’effet, mais cela nécessite également plus de performances de l’appareil.

Je choisis le modèle wan2.1-i2v-14b-Q4_K_M.gguf pour l’exemple

Choisissez une version à télécharger dans Text encoders.

VAE

Emplacement de sauvegarde des fichiers

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └── wan2.1-i2v-14b-Q4_K_M.gguf                    # ou la version que vous avez choisie
│   ├── text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors       # ou la version que vous avez choisie
│   └── vae/
│       └──  wan_2.1_vae.safetensors

2.3 Exécution du flux de travail étape par étape

Flux de travail de génération de vidéos à partir d'images de la version Wan2.1 GGUF

  1. Assurez-vous que le nœud Unet Loader(GGUF) a chargé le modèle wan2.1-i2v-14b-Q4_K_M.gguf
  2. Assurez-vous que le nœud Load CLIP a chargé le modèle umt5_xxl_fp8_e4m3fn_scaled.safetensors
  3. Assurez-vous que le nœud Load VAE a chargé le modèle wan_2.1_vae.safetensors
  4. Assurez-vous que le nœud Load CLIP Vision a chargé le modèle clip_vision_h.safetensors
  5. Chargez l’image d’entrée fournie précédemment dans le nœud Load Image
  6. Vous pouvez entrer le contenu de la description vidéo que vous souhaitez générer dans le nœud CLIP Text Encoder
  7. Cliquez sur le bouton Queue, ou utilisez le raccourci Ctrl(cmd) + Enter pour exécuter la génération de vidéo

Questions fréquentes

Comment enregistrer une vidéo au format mp4

Le flux de travail de génération de vidéos ci-dessus génère par défaut des vidéos au format .webp. Si vous souhaitez enregistrer dans un autre format, vous pouvez essayer d’utiliser le nœud video Combine du plugin ComfyUI-VideoHelperSuite pour enregistrer au format mp4. Format de sortie vidéo

Ressources associées

Tous les modèles sont désormais disponibles pour téléchargement sur Hugging Face et ModelScope :