Guide et exemples de workflow HunyuanVideo pour la génération de vidéos à partir de texte
Ce tutoriel explique en détail comment utiliser le modèle HunyuanVideo de Tencent dans ComfyUI pour générer des vidéos à partir de texte. Nous commencerons par la configuration de l’environnement et vous guiderons pas à pas tout au long du processus.
1. Configuration matérielle requise
Avant de commencer, assurez-vous que votre système répond aux exigences minimales suivantes :
- GPU : Carte NVIDIA compatible CUDA
- Minimum requis : 60 Go de VRAM (pour générer des vidéos 720p×1280p×129 images)
- Configuration recommandée : 80 Go de VRAM (pour une meilleure qualité de génération)
- Configuration minimale utilisable : 45 Go de VRAM (pour générer des vidéos 544p×960p×129 images)
- Système d’exploitation : Linux (environnement de test officiel)
- Version CUDA : CUDA 11.8 ou 12.0+ recommandé
Spécifications matérielles issues de : https://huggingface.co/tencent/HunyuanVideo
1. Installation et mise à jour de ComfyUI
Si vous n’avez pas encore installé ComfyUI, consultez les sections correspondantes :
Guide d’installation de ComfyUI Guide de mise à jour de ComfyUI
La mise à jour de ComfyUI vers la dernière version est nécessaire pour avoir accès au nœud ‘EmptyHunyuanLatentVideo’
2. Téléchargement et installation des modèles
HunyuanVideo nécessite le téléchargement des fichiers de modèle suivants :
2.1 Fichier du modèle principal
Téléchargez les fichiers suivants depuis la page de téléchargement du modèle principal HunyuanVideo :
Nom du fichier | Taille | Répertoire de destination |
---|---|---|
hunyuan_video_t2v_720p_bf16.safetensors | environ 25.6 Go | ComfyUI/models/diffusion_models |
2.2 Fichiers d’encodeur de texte
Téléchargez les fichiers suivants depuis la page de téléchargement de l’encodeur de texte HunyuanVideo :
Nom du fichier | Taille | Répertoire de destination |
---|---|---|
clip_l.safetensors | environ 246 Mo | ComfyUI/models/text_encoders |
llava_llama3_fp8_scaled.safetensors | environ 9.09 Go | ComfyUI/models/text_encoders |
2.3 Fichier du modèle VAE
Téléchargez le fichier suivant depuis la page de téléchargement VAE HunyuanVideo :
Nom du fichier | Taille | Répertoire de destination |
---|---|---|
hunyuan_video_vae_bf16.safetensors | environ 493 Mo | ComfyUI/models/vae |
Structure de référence des répertoires de modèles
ComfyUI/
├── models/
│ ├── diffusion_models/
│ │ └── hunyuan_video_t2v_720p_bf16.safetensors # Fichier du modèle principal
│ ├── text_encoders/
│ │ ├── clip_l.safetensors # Encodeur de texte CLIP
│ │ └── llava_llama3_fp8_scaled.safetensors # Encodeur de texte LLaVA
│ └── vae/
│ └── hunyuan_video_vae_bf16.safetensors # Fichier du modèle VAE
3. Téléchargement du fichier de workflow
Source du fichier de workflow : Téléchargement du workflow HunyuanVideo
Workflow de base pour la génération vidéo
HunyuanVideo prend en charge les résolutions suivantes :
Résolution | Ratio 9:16 | Ratio 16:9 | Ratio 4:3 | Ratio 3:4 | Ratio 1:1 |
---|---|---|---|---|---|
540p | 544×960×129 images | 960×544×129 images | 624×832×129 images | 832×624×129 images | 720×720×129 images |
720p (recommandé) | 720×1280×129 images | 1280×720×129 images | 1104×832×129 images | 832×1104×129 images | 960×960×129 images |
4. Description des nœuds du workflow
4.1 Nœuds de chargement des modèles
-
UNETLoader
- Utilité : Charge le fichier du modèle principal
- Paramètres :
- Model :
hunyuan_video_t2v_720p_bf16.safetensors
- Weight Type :
default
(choisir fp8 si la mémoire GPU est limitée)
- Model :
-
DualCLIPLoader
- Utilité : Charge les modèles d’encodeur de texte
- Paramètres :
- CLIP 1 :
clip_l.safetensors
- CLIP 2 :
llava_llama3_fp8_scaled.safetensors
- Text Encoder :
hunyuan_video
- CLIP 1 :
-
VAELoader
- Utilité : Charge le modèle VAE
- Paramètres :
- VAE Model :
hunyuan_video_vae_bf16.safetensors
- VAE Model :
4.2 Nœuds clés pour la génération vidéo
-
EmptyHunyuanLatentVideo
- Utilité : Crée l’espace latent de la vidéo
- Paramètres :
- Width : Largeur de la vidéo (ex : 848)
- Height : Hauteur de la vidéo (ex : 480)
- Frame Count : Nombre d’images (ex : 73)
- Batch Size : Taille du lot (par défaut 1)
-
CLIPTextEncode
- Utilité : Encode le texte de prompt
- Paramètres :
- Text : Prompt positif (description du contenu souhaité)
- Il est recommandé d’utiliser une description détaillée en anglais
-
FluxGuidance
- Utilité : Contrôle l’intensité du guidage
- Paramètres :
- Guidance Scale : Intensité du guidage (par défaut 6.0)
- Plus la valeur est élevée, plus le résultat sera proche du prompt, mais peut affecter la qualité
-
KSamplerSelect
- Utilité : Sélectionne l’échantillonneur
- Paramètres :
- Sampler : Méthode d’échantillonnage (par défaut
euler
) - Autres options :
euler_ancestral
,dpm++_2m
, etc.
- Sampler : Méthode d’échantillonnage (par défaut
-
BasicScheduler
- Utilité : Configure le planificateur d’échantillonnage
- Paramètres :
- Scheduler : Mode de planification (par défaut
simple
) - Steps : Nombre d’étapes (20-30 recommandé)
- Denoise : Force du débruitage (par défaut 1.0)
- Scheduler : Mode de planification (par défaut
4.3 Nœuds de décodage et de sauvegarde vidéo
-
VAEDecodeTiled
- Utilité : Décode la vidéo de l’espace latent
- Paramètres :
- Tile Size : 256 (réduire si mémoire insuffisante)
- Overlap : 64 (réduire si mémoire insuffisante)
Note : Préférer VAEDecodeTiled à VAEDecode car plus économe en mémoire
-
SaveAnimatedWEBP
- Utilité : Sauvegarde la vidéo générée
- Paramètres :
- Filename Prefix : Préfixe du nom de fichier
- FPS : Images par seconde (24 par défaut)
- Lossless : Sans perte (false par défaut)
- Quality : Qualité (0-100, 80 par défaut)
- Filter Type : Type de filtre (par défaut
default
)
5. Conseils d’optimisation
5.1 Optimisation de la mémoire GPU
En cas de mémoire insuffisante :
- Sélectionner le type de poids fp8 dans UNETLoader
- Réduire les paramètres tile_size et overlap de VAEDecodeTiled
- Utiliser une résolution et un nombre d’images plus faibles
5.2 Optimisation de la qualité
-
Optimisation du prompt
[Description du sujet], [Description de l'action], [Description de la scène], [Description du style], [Exigences de qualité]
Exemple :
anime style anime girl with massive fennec ears and one big fluffy tail, she has blonde hair long hair blue eyes wearing a pink sweater and a long blue skirt walking in a beautiful outdoor scenery with snow mountains in the background
-
Ajustement des paramètres
- Augmenter le nombre d’étapes (Steps) améliore la qualité
- Augmenter le Guidance Scale renforce l’adhérence au texte
- Ajuster les paramètres FPS et qualité selon les besoins
6. Problèmes courants
-
Mémoire GPU insuffisante
- Suivre les conseils d’optimisation de mémoire
- Fermer les autres programmes utilisant le GPU
- Utiliser une résolution plus basse
-
Génération lente
- C’est normal, la génération vidéo prend du temps
- Réduire le nombre d’étapes et d’images
- Utiliser une résolution plus basse pour accélérer
-
Problèmes de qualité
- Optimiser la description du prompt
- Augmenter le nombre d’étapes
- Ajuster le Guidance Scale
- Essayer différents échantillonneurs
Liens de référence
- Exemples HunyuanVideo ComfyUI
- Téléchargement du modèle HunyuanVideo
- Documentation officielle ComfyUI