Skip to content
Aidez ComfyUI Wiki à supprimer les publicités Devenir un Mécène
Tutoriel ComfyUITutoriel Avancé ComfyUIGuide et exemples de workflow HunyuanVideo pour la génération de vidéos à partir de texte

Guide et exemples de workflow HunyuanVideo pour la génération de vidéos à partir de texte

Ce tutoriel explique en détail comment utiliser le modèle HunyuanVideo de Tencent dans ComfyUI pour générer des vidéos à partir de texte. Nous commencerons par la configuration de l’environnement et vous guiderons pas à pas tout au long du processus.

1. Configuration matérielle requise

Avant de commencer, assurez-vous que votre système répond aux exigences minimales suivantes :

  • GPU : Carte NVIDIA compatible CUDA
    • Minimum requis : 60 Go de VRAM (pour générer des vidéos 720p×1280p×129 images)
    • Configuration recommandée : 80 Go de VRAM (pour une meilleure qualité de génération)
    • Configuration minimale utilisable : 45 Go de VRAM (pour générer des vidéos 544p×960p×129 images)
  • Système d’exploitation : Linux (environnement de test officiel)
  • Version CUDA : CUDA 11.8 ou 12.0+ recommandé

Spécifications matérielles issues de : https://huggingface.co/tencent/HunyuanVideo

1. Installation et mise à jour de ComfyUI

Si vous n’avez pas encore installé ComfyUI, consultez les sections correspondantes :

Guide d’installation de ComfyUI Guide de mise à jour de ComfyUI

La mise à jour de ComfyUI vers la dernière version est nécessaire pour avoir accès au nœud ‘EmptyHunyuanLatentVideo’

2. Téléchargement et installation des modèles

HunyuanVideo nécessite le téléchargement des fichiers de modèle suivants :

2.1 Fichier du modèle principal

Téléchargez les fichiers suivants depuis la page de téléchargement du modèle principal HunyuanVideo :

Nom du fichierTailleRépertoire de destination
hunyuan_video_t2v_720p_bf16.safetensorsenviron 25.6 GoComfyUI/models/diffusion_models

2.2 Fichiers d’encodeur de texte

Téléchargez les fichiers suivants depuis la page de téléchargement de l’encodeur de texte HunyuanVideo :

Nom du fichierTailleRépertoire de destination
clip_l.safetensorsenviron 246 MoComfyUI/models/text_encoders
llava_llama3_fp8_scaled.safetensorsenviron 9.09 GoComfyUI/models/text_encoders

2.3 Fichier du modèle VAE

Téléchargez le fichier suivant depuis la page de téléchargement VAE HunyuanVideo :

Nom du fichierTailleRépertoire de destination
hunyuan_video_vae_bf16.safetensorsenviron 493 MoComfyUI/models/vae

Structure de référence des répertoires de modèles

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └── hunyuan_video_t2v_720p_bf16.safetensors  # Fichier du modèle principal
│   ├── text_encoders/
│   │   ├── clip_l.safetensors                       # Encodeur de texte CLIP
│   │   └── llava_llama3_fp8_scaled.safetensors      # Encodeur de texte LLaVA
│   └── vae/
│       └── hunyuan_video_vae_bf16.safetensors       # Fichier du modèle VAE

3. Téléchargement du fichier de workflow

Format Json brut

Source du fichier de workflow : Téléchargement du workflow HunyuanVideo

Workflow de base pour la génération vidéo

HunyuanVideo prend en charge les résolutions suivantes :

RésolutionRatio 9:16Ratio 16:9Ratio 4:3Ratio 3:4Ratio 1:1
540p544×960×129 images960×544×129 images624×832×129 images832×624×129 images720×720×129 images
720p (recommandé)720×1280×129 images1280×720×129 images1104×832×129 images832×1104×129 images960×960×129 images

4. Description des nœuds du workflow

4.1 Nœuds de chargement des modèles

  1. UNETLoader

    • Utilité : Charge le fichier du modèle principal
    • Paramètres :
      • Model : hunyuan_video_t2v_720p_bf16.safetensors
      • Weight Type : default (choisir fp8 si la mémoire GPU est limitée)
  2. DualCLIPLoader

    • Utilité : Charge les modèles d’encodeur de texte
    • Paramètres :
      • CLIP 1 : clip_l.safetensors
      • CLIP 2 : llava_llama3_fp8_scaled.safetensors
      • Text Encoder : hunyuan_video
  3. VAELoader

    • Utilité : Charge le modèle VAE
    • Paramètres :
      • VAE Model : hunyuan_video_vae_bf16.safetensors

4.2 Nœuds clés pour la génération vidéo

  1. EmptyHunyuanLatentVideo

    • Utilité : Crée l’espace latent de la vidéo
    • Paramètres :
      • Width : Largeur de la vidéo (ex : 848)
      • Height : Hauteur de la vidéo (ex : 480)
      • Frame Count : Nombre d’images (ex : 73)
      • Batch Size : Taille du lot (par défaut 1)
  2. CLIPTextEncode

    • Utilité : Encode le texte de prompt
    • Paramètres :
      • Text : Prompt positif (description du contenu souhaité)
      • Il est recommandé d’utiliser une description détaillée en anglais
  3. FluxGuidance

    • Utilité : Contrôle l’intensité du guidage
    • Paramètres :
      • Guidance Scale : Intensité du guidage (par défaut 6.0)
      • Plus la valeur est élevée, plus le résultat sera proche du prompt, mais peut affecter la qualité
  4. KSamplerSelect

    • Utilité : Sélectionne l’échantillonneur
    • Paramètres :
      • Sampler : Méthode d’échantillonnage (par défaut euler)
      • Autres options : euler_ancestral, dpm++_2m, etc.
  5. BasicScheduler

    • Utilité : Configure le planificateur d’échantillonnage
    • Paramètres :
      • Scheduler : Mode de planification (par défaut simple)
      • Steps : Nombre d’étapes (20-30 recommandé)
      • Denoise : Force du débruitage (par défaut 1.0)

4.3 Nœuds de décodage et de sauvegarde vidéo

  1. VAEDecodeTiled

    • Utilité : Décode la vidéo de l’espace latent
    • Paramètres :
      • Tile Size : 256 (réduire si mémoire insuffisante)
      • Overlap : 64 (réduire si mémoire insuffisante)

    Note : Préférer VAEDecodeTiled à VAEDecode car plus économe en mémoire

  2. SaveAnimatedWEBP

    • Utilité : Sauvegarde la vidéo générée
    • Paramètres :
      • Filename Prefix : Préfixe du nom de fichier
      • FPS : Images par seconde (24 par défaut)
      • Lossless : Sans perte (false par défaut)
      • Quality : Qualité (0-100, 80 par défaut)
      • Filter Type : Type de filtre (par défaut default)

5. Conseils d’optimisation

5.1 Optimisation de la mémoire GPU

En cas de mémoire insuffisante :

  1. Sélectionner le type de poids fp8 dans UNETLoader
  2. Réduire les paramètres tile_size et overlap de VAEDecodeTiled
  3. Utiliser une résolution et un nombre d’images plus faibles

5.2 Optimisation de la qualité

  1. Optimisation du prompt

    [Description du sujet], [Description de l'action], [Description de la scène], [Description du style], [Exigences de qualité]

    Exemple :

    anime style anime girl with massive fennec ears and one big fluffy tail, she has blonde hair long hair blue eyes wearing a pink sweater and a long blue skirt walking in a beautiful outdoor scenery with snow mountains in the background
  2. Ajustement des paramètres

    • Augmenter le nombre d’étapes (Steps) améliore la qualité
    • Augmenter le Guidance Scale renforce l’adhérence au texte
    • Ajuster les paramètres FPS et qualité selon les besoins

6. Problèmes courants

  1. Mémoire GPU insuffisante

    • Suivre les conseils d’optimisation de mémoire
    • Fermer les autres programmes utilisant le GPU
    • Utiliser une résolution plus basse
  2. Génération lente

    • C’est normal, la génération vidéo prend du temps
    • Réduire le nombre d’étapes et d’images
    • Utiliser une résolution plus basse pour accélérer
  3. Problèmes de qualité

    • Optimiser la description du prompt
    • Augmenter le nombre d’étapes
    • Ajuster le Guidance Scale
    • Essayer différents échantillonneurs

Liens de référence