Guide et exemples de workflow HunyuanVideo pour la génération de vidéos à partir de texte
Un tutoriel complet sur l'utilisation du modèle HunyuanVideo de Tencent dans ComfyUI pour la génération de vidéos à partir de texte, incluant la configuration de l'environnement, l'installation des modèles et les instructions d'utilisation du workflow
Ce tutoriel présentera en détail comment utiliser le modèle HunyuanVideo de Tencent dans ComfyUI pour la génération de vidéos à partir de texte. Nous vous guiderons étape par étape à travers l'ensemble du processus.
1. Installation et mise à jour de ComfyUI
Si vous n'avez pas encore installé ComfyUI, consultez les sections correspondantes :
Guide d'installation de ComfyUI Guide de mise à jour de ComfyUI
La mise à jour de ComfyUI vers la dernière version est nécessaire pour avoir accès au nœud 'EmptyHunyuanLatentVideo'
2. Téléchargement et installation des modèles
HunyuanVideo nécessite le téléchargement des fichiers de modèle suivants :
2.1 Fichier du modèle principal
Téléchargez les fichiers suivants depuis la page de téléchargement du modèle principal HunyuanVideo :
| Nom du fichier | Taille | Répertoire de destination |
|---|---|---|
| hunyuan_video_t2v_720p_bf16.safetensors | environ 25.6 Go | ComfyUI/models/diffusion_models |
2.2 Fichiers d'encodeur de texte
Téléchargez les fichiers suivants depuis la page de téléchargement de l'encodeur de texte HunyuanVideo :
| Nom du fichier | Taille | Répertoire de destination |
|---|---|---|
| clip_l.safetensors | environ 246 Mo | ComfyUI/models/text_encoders |
| llava_llama3_fp8_scaled.safetensors | environ 9.09 Go | ComfyUI/models/text_encoders |
2.3 Fichier du modèle VAE
Téléchargez le fichier suivant depuis la page de téléchargement VAE HunyuanVideo :
| Nom du fichier | Taille | Répertoire de destination |
|---|---|---|
| hunyuan_video_vae_bf16.safetensors | environ 493 Mo | ComfyUI/models/vae |
Structure de référence des répertoires de modèles
ComfyUI/
├── models/
│ ├── diffusion_models/
│ │ └── hunyuan_video_t2v_720p_bf16.safetensors # Fichier du modèle principal
│ ├── text_encoders/
│ │ ├── clip_l.safetensors # Encodeur de texte CLIP
│ │ └── llava_llama3_fp8_scaled.safetensors # Encodeur de texte LLaVA
│ └── vae/
│ └── hunyuan_video_vae_bf16.safetensors # Fichier du modèle VAE3. Téléchargement du fichier de workflow
[Format Json brut](https://comfyanonymous.github.io/ComfyUI_examples/hunyuan_video/hunyuan_video_text_to_video.json)Source du fichier de workflow : Téléchargement du workflow HunyuanVideo
Workflow de base pour la génération vidéo
HunyuanVideo prend en charge les résolutions suivantes :
| Résolution | Ratio 9:16 | Ratio 16:9 | Ratio 4:3 | Ratio 3:4 | Ratio 1:1 |
|---|---|---|---|---|---|
| 540p | 544×960×129 images | 960×544×129 images | 624×832×129 images | 832×624×129 images | 720×720×129 images |
| 720p (recommandé) | 720×1280×129 images | 1280×720×129 images | 1104×832×129 images | 832×1104×129 images | 960×960×129 images |
4. Description des nœuds du workflow
4.1 Nœuds de chargement des modèles
-
UNETLoader
- Utilité : Charge le fichier du modèle principal
- Paramètres :
- Model :
hunyuan_video_t2v_720p_bf16.safetensors - Weight Type :
default(choisir fp8 si la mémoire GPU est limitée)
- Model :
-
DualCLIPLoader
- Utilité : Charge les modèles d'encodeur de texte
- Paramètres :
- CLIP 1 :
clip_l.safetensors - CLIP 2 :
llava_llama3_fp8_scaled.safetensors - Text Encoder :
hunyuan_video
- CLIP 1 :
-
VAELoader
- Utilité : Charge le modèle VAE
- Paramètres :
- VAE Model :
hunyuan_video_vae_bf16.safetensors
- VAE Model :
4.2 Nœuds clés pour la génération vidéo
-
EmptyHunyuanLatentVideo
- Utilité : Crée l'espace latent de la vidéo
- Paramètres :
- Width : Largeur de la vidéo (ex : 848)
- Height : Hauteur de la vidéo (ex : 480)
- Frame Count : Nombre d'images (ex : 73)
- Batch Size : Taille du lot (par défaut 1)
-
CLIPTextEncode
- Utilité : Encode le texte de prompt
- Paramètres :
- Text : Prompt positif (description du contenu souhaité)
- Il est recommandé d'utiliser une description détaillée en anglais
-
FluxGuidance
- Utilité : Contrôle l'intensité du guidage
- Paramètres :
- Guidance Scale : Intensité du guidage (par défaut 6.0)
- Plus la valeur est élevée, plus le résultat sera proche du prompt, mais peut affecter la qualité
-
KSamplerSelect
- Utilité : Sélectionne l'échantillonneur
- Paramètres :
- Sampler : Méthode d'échantillonnage (par défaut
euler) - Autres options :
euler_ancestral,dpm++_2m, etc.
- Sampler : Méthode d'échantillonnage (par défaut
-
BasicScheduler
- Utilité : Configure le planificateur d'échantillonnage
- Paramètres :
- Scheduler : Mode de planification (par défaut
simple) - Steps : Nombre d'étapes (20-30 recommandé)
- Denoise : Force du débruitage (par défaut 1.0)
- Scheduler : Mode de planification (par défaut
4.3 Nœuds de décodage et de sauvegarde vidéo
-
VAEDecodeTiled
- Utilité : Décode la vidéo de l'espace latent
- Paramètres :
- Tile Size : 256 (réduire si mémoire insuffisante)
- Overlap : 64 (réduire si mémoire insuffisante)
Note : Préférer VAEDecodeTiled à VAEDecode car plus économe en mémoire
-
SaveAnimatedWEBP
- Utilité : Sauvegarde la vidéo générée
- Paramètres :
- Filename Prefix : Préfixe du nom de fichier
- FPS : Images par seconde (24 par défaut)
- Lossless : Sans perte (false par défaut)
- Quality : Qualité (0-100, 80 par défaut)
- Filter Type : Type de filtre (par défaut
default)
5. Conseils d'optimisation
5.1 Optimisation de la mémoire GPU
En cas de mémoire insuffisante :
- Sélectionner le type de poids fp8 dans UNETLoader
- Réduire les paramètres tile_size et overlap de VAEDecodeTiled
- Utiliser une résolution et un nombre d'images plus faibles
5.2 Optimisation de la qualité
-
Optimisation du prompt
[Description du sujet], [Description de l'action], [Description de la scène], [Description du style], [Exigences de qualité]Exemple :
anime style anime girl with massive fennec ears and one big fluffy tail, she has blonde hair long hair blue eyes wearing a pink sweater and a long blue skirt walking in a beautiful outdoor scenery with snow mountains in the background -
Ajustement des paramètres
- Augmenter le nombre d'étapes (Steps) améliore la qualité
- Augmenter le Guidance Scale renforce l'adhérence au texte
- Ajuster les paramètres FPS et qualité selon les besoins
6. Problèmes courants
-
Mémoire GPU insuffisante
- Suivre les conseils d'optimisation de mémoire
- Fermer les autres programmes utilisant le GPU
- Utiliser une résolution plus basse
-
Génération lente
- C'est normal, la génération vidéo prend du temps
- Réduire le nombre d'étapes et d'images
- Utiliser une résolution plus basse pour accélérer
-
Problèmes de qualité
- Optimiser la description du prompt
- Augmenter le nombre d'étapes
- Ajuster le Guidance Scale
- Essayer différents échantillonneurs