Skip to content

Guide étape par étape du LTX Video Workflow

Flux de travail LTX Video

Introduction au modèle LTX Video

LTX Video est un modèle révolutionnaire de génération de vidéos basé sur l’architecture DiT avec seulement 2 milliards de paramètres, offrant :

  • Génération en temps réel : Capable de générer des vidéos plus rapidement que la lecture en temps réel
  • Sortie de haute qualité : Sortie vidéo fluide en résolution 768x512 et 24FPS
  • Modes de génération multiples : Prend en charge la conversion texte-en-vidéo, image-en-vidéo et vidéo-en-vidéo

Exigences de configuration

Exigences système

  • Python 3.10.5 ou supérieur
  • CUDA 12.2 ou supérieur
  • PyTorch >= 2.1.2

Environnement ComfyUI

  1. Mettre à jour ComfyUI Tout d’abord, assurez-vous que votre ComfyUI est mis à jour vers la dernière version. Si vous ne savez pas comment mettre à jour ComfyUI, veuillez vous référer à Comment mettre à jour ComfyUI

  2. Installer le nœud personnalisé ComfyUI-LTXVideo Il existe deux méthodes d’installation :

Méthode 1 : Via le gestionnaire ComfyUI (Recommandé)

  1. Ouvrez le gestionnaire ComfyUI
  2. Recherchez “LTXVideo”
  3. Cliquez sur Installer

Méthode 2 : Installation manuelle

  1. Accédez au répertoire custom_nodes de ComfyUI
  2. Clonez le dépôt :
git clone https://github.com/Lightricks/ComfyUI-LTXVideo
  1. Installer les dépendances :
pip install -r requirements.txt

Si vous n’êtes pas familier avec l’installation de plugins, veuillez vous référer au Guide d’Installation des Plugins ComfyUI

Téléchargement des Modèles Requis

Vous devez télécharger les fichiers de modèle suivants :

Nom du ModèleNom du FichierChemin d’InstallationLien de Téléchargement
Modèle LTX Videoltx-video-2b-v0.9.safetensorsmodels/checkpointsHugging Face
Encodeur de Texte PixArtmodel-00001-of-00002.safetensorsmodels/text_encoders/PixArt-XL-2-1024-MS/text_encoderHugging Face
Encodeur de Texte T5t5xxl_fp16.safetensorsmodels/text_encodersHugging Face

Remarque :

  1. L’encodeur de texte PixArt nécessite de télécharger le contenu complet du dossier text_encoder
  2. Le fichier de l’encodeur de texte T5 est volumineux (environ 9,79 Go), il est recommandé d’utiliser un gestionnaire de téléchargement

Fichiers de Workflow

Workflow Texte-en-Vidéo

Workflow Texte-en-Vidéo LTX Video

Workflow Image-en-Vidéo

Workflow Image-en-Vidéo LTX Video

Workflow Vidéo-en-Vidéo

Workflow Vidéo-en-Vidéo LTX Video

Limitations d’Utilisation de LTX Video

Résolution et Fréquence d’Images

  • La résolution doit être un multiple de 32
  • La fréquence d’images doit être un multiple de 8 + 1 (par exemple, 65 images, 257 images, etc.)
  • La résolution recommandée ne doit pas dépasser 720x1280
  • Le nombre d’images recommandé ne doit pas dépasser 257 images

Directives de Prompt

  • Doit être en anglais
  • Plus le prompt est détaillé, mieux c’est
  • Il est recommandé d’inclure des descriptions complètes des scènes, des actions et des détails

Tutoriel d’Utilisation du Workflow

Description de Base des Nœuds

Tous les workflows incluent les nœuds de base suivants :

  1. Nœud de Chargement de Modèle
  • LTXVLoader: Charger le modèle principal LTX Video
    • Sélectionnez le fichier ltx-video-2b-v0.9.safetensors
  • LTXVCLIPModelLoader: Charger l’encodeur de texte
    • Sélectionnez le fichier PixArt-XL-2-1024-MS/text_encoder/model-00001-of-00002.safetensors
  • LTXVModelConfigurator: Configurer les paramètres du modèle
    • Définir les paramètres de base tels que la résolution, le nombre d’images et les FPS
    • Activer éventuellement l’entrée de conditionnement
  1. Nœud de Traitement de Prompt
  • CLIPTextEncode (Positive): Encodage de prompt positif
    • Utiliser l’encodeur PixArt pour traiter les prompts positifs
  • CLIPTextEncode (Negative): Encodage de prompt négatif
    • Utiliser l’encodeur PixArt pour traiter les prompts négatifs
  • CFGGuider: Contrôler la force du guidage de prompt
    • Plage de valeurs recommandée : 2-7
    • Plus la valeur est grande, plus le contenu généré sera proche de la description du prompt
  1. Nœud de Contrôle d’Échantillonnage
  • KSamplerSelect: Sélectionner le sampler
    • Il est recommandé d’utiliser le sampler Euler
  • BasicScheduler: Définir le nombre d’étapes d’échantillonnage et le scheduler
    • Plage d’étapes : 10-25
    • Type de scheduler : normal
  • RandomNoise: Générer du bruit aléatoire
    • Une graine fixe peut être définie pour des résultats reproductibles
  • SamplerCustomAdvanced: Exécuter le processus d’échantillonnage
    • Intégrer tous les paramètres liés à l’échantillonnage pour la génération finale
  1. Nœud de Sortie
  • VAEDecode: Décoder les images générées
    • Utiliser le décodeur VAE intégré de LTX Video
  • VHS_VideoCombine: Combiner la vidéo finale
    • Définir la fréquence d’images de sortie, le format et les paramètres d’encodage
    • Prend en charge la prévisualisation de la vidéo générée

Tutoriel de Mode de Génération LTX Video

Texte-en-Vidéo

  1. Définir les Paramètres de Base Dans LTXVModelConfigurator :
  • Résolution : 768x512
  • Nombre d’images : 65 (environ 2,5 secondes)
  • FPS : 25
  1. Écrire les Prompts
  • Les prompts positifs doivent être aussi détaillés que possible, décrivant les scènes, les actions et les détails
  • Les prompts négatifs sont recommandés pour inclure : “worst quality, inconsistent motion, blurry, jittery, distorted, watermarks”
  1. Ajuster les Paramètres d’Échantillonnage
  • Étapes : 20 étapes recommandées
  • CFG : 4-7 recommandé
  • Sampler : Euler
  • Scheduler : Normal

Image-en-Vidéo

En plus des paramètres de base, vous avez également besoin de :

  1. Préparer les Images de Référence
  • Utiliser le nœud LoadImage pour charger les images de référence
  • Les images doivent idéalement correspondre au ratio de résolution cible
  1. Ajuster les Paramètres de Conversion
  • Abaisser la valeur CFG (3-5 recommandé) pour maintenir la cohérence avec l’image de référence
  • Les étapes d’échantillonnage peuvent être réduites de manière appropriée (15-20)

Vidéo-en-Vidéo

  1. Charger la Vidéo Source Utiliser le nœud VHS_LoadVideo :
  • Définir une fréquence d’images appropriée
  • Choisir si la résolution doit être ajustée
  1. Réglage des Paramètres
  • Utiliser une valeur CFG plus basse (2-4)
  • Réduire les étapes d’échantillonnage (10-15)
  • Ajuster le paramètre sigma_shift si nécessaire

Guide d’Optimisation de LTX Video

Optimisation des Paramètres

  1. Optimisation des Prompts

    • Utiliser des descriptions détaillées et spécifiques
    • Inclure des descriptions des actions et des transitions de scène
    • Ajouter du vocabulaire lié à la cinématographie
  2. Optimisation des Performances

    • Réduire la résolution de manière appropriée pour augmenter la vitesse
    • Diminuer le nombre d’images pour les tests
    • Utiliser moins d’étapes d’échantillonnage
  3. Optimisation de la Qualité

    • Pour des images tremblantes : abaisser la valeur CFG
    • Pour des détails insuffisants : augmenter les étapes d’échantillonnage
    • Pour des transitions non naturelles : optimiser les descriptions de prompts

Conseils d’Application Avancée de LTX Video

Production de Longues Vidéos

  • Générer plusieurs segments séparément
  • Maintenir la cohérence stylistique à travers les prompts
  • Utiliser des outils de montage vidéo pour l’assemblage en post-production

Contrôle du Style

  • Inclure des descriptions de style artistique spécifiques dans les prompts
  • Utiliser des images de référence pour guider le style
  • Ajuster la force du style via les valeurs CFG

Contrôle des Actions

  • Décrire en détail les processus d’action dans les prompts
  • Utiliser des images clés comme références
  • Ajuster les fréquences d’images de manière appropriée pour les effets souhaités

Exemples et Modèles de LTX Video

Exemples de Scènes

  1. Transition de Scène Simple

Prompt Positif : “Un lac serein au lever du soleil, des ondulations douces sur la surface de l’eau, une brume matinale s’élevant lentement, des oiseaux volant à travers le ciel doré” Étapes d’Échantillonnage : 20 CFG : 4

  1. Séquence d’Action Complexe Prompt Positif : “Un danseur professionnel exécutant une séquence de danse contemporaine gracieuse, des mouvements fluides, des pirouettes et des sauts dynamiques, un éclairage doux, un cadre de studio” Étapes d’Échantillonnage : 25 CFG : 5

N’oubliez pas de sauvegarder vos combinaisons de paramètres préférées pour une utilisation future. Grâce à des expérimentations et des ajustements continus, vous maîtriserez progressivement l’utilisation de LTX Video.

Modèle de Prompt LTX Video

The turquoise waves crash against the dark, jagged rocks of the shore, sending white foam spraying into the air. The scene is dominated by the stark contrast between the bright blue water and the dark, almost black rocks. The water is a clear, turquoise color, and the waves are capped with white foam. The rocks are dark and jagged, and they are covered in patches of green moss. The shore is lined with lush green vegetation, including trees and bushes. In the background, there are rolling hills covered in dense forest. The sky is cloudy, and the light is dim.

Liens de Ressources LTX Video

Ressources Officielles LTX Video

Téléchargements de Modèles LTX Video

Services en Ligne LTX Video

Ressources Communautaires LTX Video

Support et Aide