Guide et exemples de workflow HunyuanVideo pour la génération de vidéos à partir de texte

Un tutoriel complet sur l'utilisation du modèle HunyuanVideo de Tencent dans ComfyUI pour la génération de vidéos à partir de texte, incluant la configuration de l'environnement, l'installation des modèles et les instructions d'utilisation du workflow

Ce tutoriel présentera en détail comment utiliser le modèle HunyuanVideo de Tencent dans ComfyUI pour la génération de vidéos à partir de texte. Nous vous guiderons étape par étape à travers l'ensemble du processus.

1. Installation et mise à jour de ComfyUI

Si vous n'avez pas encore installé ComfyUI, consultez les sections correspondantes :

Guide d'installation de ComfyUI Guide de mise à jour de ComfyUI

La mise à jour de ComfyUI vers la dernière version est nécessaire pour avoir accès au nœud 'EmptyHunyuanLatentVideo'

2. Téléchargement et installation des modèles

HunyuanVideo nécessite le téléchargement des fichiers de modèle suivants :

2.1 Fichier du modèle principal

Téléchargez les fichiers suivants depuis la page de téléchargement du modèle principal HunyuanVideo :

Nom du fichierTailleRépertoire de destination
hunyuan_video_t2v_720p_bf16.safetensorsenviron 25.6 GoComfyUI/models/diffusion_models

2.2 Fichiers d'encodeur de texte

Téléchargez les fichiers suivants depuis la page de téléchargement de l'encodeur de texte HunyuanVideo :

Nom du fichierTailleRépertoire de destination
clip_l.safetensorsenviron 246 MoComfyUI/models/text_encoders
llava_llama3_fp8_scaled.safetensorsenviron 9.09 GoComfyUI/models/text_encoders

2.3 Fichier du modèle VAE

Téléchargez le fichier suivant depuis la page de téléchargement VAE HunyuanVideo :

Nom du fichierTailleRépertoire de destination
hunyuan_video_vae_bf16.safetensorsenviron 493 MoComfyUI/models/vae

Structure de référence des répertoires de modèles

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └── hunyuan_video_t2v_720p_bf16.safetensors  # Fichier du modèle principal
│   ├── text_encoders/
│   │   ├── clip_l.safetensors                       # Encodeur de texte CLIP
│   │   └── llava_llama3_fp8_scaled.safetensors      # Encodeur de texte LLaVA
│   └── vae/
│       └── hunyuan_video_vae_bf16.safetensors       # Fichier du modèle VAE

3. Téléchargement du fichier de workflow

[Format Json brut](https://comfyanonymous.github.io/ComfyUI_examples/hunyuan_video/hunyuan_video_text_to_video.json)

Source du fichier de workflow : Téléchargement du workflow HunyuanVideo

Workflow de base pour la génération vidéo

HunyuanVideo prend en charge les résolutions suivantes :

RésolutionRatio 9:16Ratio 16:9Ratio 4:3Ratio 3:4Ratio 1:1
540p544×960×129 images960×544×129 images624×832×129 images832×624×129 images720×720×129 images
720p (recommandé)720×1280×129 images1280×720×129 images1104×832×129 images832×1104×129 images960×960×129 images

4. Description des nœuds du workflow

4.1 Nœuds de chargement des modèles

  1. UNETLoader

    • Utilité : Charge le fichier du modèle principal
    • Paramètres :
      • Model : hunyuan_video_t2v_720p_bf16.safetensors
      • Weight Type : default (choisir fp8 si la mémoire GPU est limitée)
  2. DualCLIPLoader

    • Utilité : Charge les modèles d'encodeur de texte
    • Paramètres :
      • CLIP 1 : clip_l.safetensors
      • CLIP 2 : llava_llama3_fp8_scaled.safetensors
      • Text Encoder : hunyuan_video
  3. VAELoader

    • Utilité : Charge le modèle VAE
    • Paramètres :
      • VAE Model : hunyuan_video_vae_bf16.safetensors

4.2 Nœuds clés pour la génération vidéo

  1. EmptyHunyuanLatentVideo

    • Utilité : Crée l'espace latent de la vidéo
    • Paramètres :
      • Width : Largeur de la vidéo (ex : 848)
      • Height : Hauteur de la vidéo (ex : 480)
      • Frame Count : Nombre d'images (ex : 73)
      • Batch Size : Taille du lot (par défaut 1)
  2. CLIPTextEncode

    • Utilité : Encode le texte de prompt
    • Paramètres :
      • Text : Prompt positif (description du contenu souhaité)
      • Il est recommandé d'utiliser une description détaillée en anglais
  3. FluxGuidance

    • Utilité : Contrôle l'intensité du guidage
    • Paramètres :
      • Guidance Scale : Intensité du guidage (par défaut 6.0)
      • Plus la valeur est élevée, plus le résultat sera proche du prompt, mais peut affecter la qualité
  4. KSamplerSelect

    • Utilité : Sélectionne l'échantillonneur
    • Paramètres :
      • Sampler : Méthode d'échantillonnage (par défaut euler)
      • Autres options : euler_ancestral, dpm++_2m, etc.
  5. BasicScheduler

    • Utilité : Configure le planificateur d'échantillonnage
    • Paramètres :
      • Scheduler : Mode de planification (par défaut simple)
      • Steps : Nombre d'étapes (20-30 recommandé)
      • Denoise : Force du débruitage (par défaut 1.0)

4.3 Nœuds de décodage et de sauvegarde vidéo

  1. VAEDecodeTiled

    • Utilité : Décode la vidéo de l'espace latent
    • Paramètres :
      • Tile Size : 256 (réduire si mémoire insuffisante)
      • Overlap : 64 (réduire si mémoire insuffisante)

    Note : Préférer VAEDecodeTiled à VAEDecode car plus économe en mémoire

  2. SaveAnimatedWEBP

    • Utilité : Sauvegarde la vidéo générée
    • Paramètres :
      • Filename Prefix : Préfixe du nom de fichier
      • FPS : Images par seconde (24 par défaut)
      • Lossless : Sans perte (false par défaut)
      • Quality : Qualité (0-100, 80 par défaut)
      • Filter Type : Type de filtre (par défaut default)

5. Conseils d'optimisation

5.1 Optimisation de la mémoire GPU

En cas de mémoire insuffisante :

  1. Sélectionner le type de poids fp8 dans UNETLoader
  2. Réduire les paramètres tile_size et overlap de VAEDecodeTiled
  3. Utiliser une résolution et un nombre d'images plus faibles

5.2 Optimisation de la qualité

  1. Optimisation du prompt

    [Description du sujet], [Description de l'action], [Description de la scène], [Description du style], [Exigences de qualité]

    Exemple :

    anime style anime girl with massive fennec ears and one big fluffy tail, she has blonde hair long hair blue eyes wearing a pink sweater and a long blue skirt walking in a beautiful outdoor scenery with snow mountains in the background
  2. Ajustement des paramètres

    • Augmenter le nombre d'étapes (Steps) améliore la qualité
    • Augmenter le Guidance Scale renforce l'adhérence au texte
    • Ajuster les paramètres FPS et qualité selon les besoins

6. Problèmes courants

  1. Mémoire GPU insuffisante

    • Suivre les conseils d'optimisation de mémoire
    • Fermer les autres programmes utilisant le GPU
    • Utiliser une résolution plus basse
  2. Génération lente

    • C'est normal, la génération vidéo prend du temps
    • Réduire le nombre d'étapes et d'images
    • Utiliser une résolution plus basse pour accélérer
  3. Problèmes de qualité

    • Optimiser la description du prompt
    • Augmenter le nombre d'étapes
    • Ajuster le Guidance Scale
    • Essayer différents échantillonneurs

Liens de référence