Guide étape par étape du LTX Video Workflow
Introduction au modèle LTX Video
LTX Video est un modèle révolutionnaire de génération de vidéos basé sur l’architecture DiT avec seulement 2 milliards de paramètres, offrant :
- Génération en temps réel : Capable de générer des vidéos plus rapidement que la lecture en temps réel
- Sortie de haute qualité : Sortie vidéo fluide en résolution 768x512 et 24FPS
- Modes de génération multiples : Prend en charge la conversion texte-en-vidéo, image-en-vidéo et vidéo-en-vidéo
Exigences de configuration
Exigences système
- Python 3.10.5 ou supérieur
- CUDA 12.2 ou supérieur
- PyTorch >= 2.1.2
Environnement ComfyUI
-
Mettre à jour ComfyUI Tout d’abord, assurez-vous que votre ComfyUI est mis à jour vers la dernière version. Si vous ne savez pas comment mettre à jour ComfyUI, veuillez vous référer à Comment mettre à jour ComfyUI
-
Installer le nœud personnalisé ComfyUI-LTXVideo Il existe deux méthodes d’installation :
Méthode 1 : Via le gestionnaire ComfyUI (Recommandé)
- Ouvrez le gestionnaire ComfyUI
- Recherchez “LTXVideo”
- Cliquez sur Installer
Méthode 2 : Installation manuelle
- Accédez au répertoire
custom_nodes
de ComfyUI - Clonez le dépôt :
git clone https://github.com/Lightricks/ComfyUI-LTXVideo
- Installer les dépendances :
pip install -r requirements.txt
Si vous n’êtes pas familier avec l’installation de plugins, veuillez vous référer au Guide d’Installation des Plugins ComfyUI
Téléchargement des Modèles Requis
Vous devez télécharger les fichiers de modèle suivants :
Nom du Modèle | Nom du Fichier | Chemin d’Installation | Lien de Téléchargement |
---|---|---|---|
Modèle LTX Video | ltx-video-2b-v0.9.safetensors | models/checkpoints | Hugging Face |
Encodeur de Texte PixArt | model-00001-of-00002.safetensors | models/text_encoders/PixArt-XL-2-1024-MS/text_encoder | Hugging Face |
Encodeur de Texte T5 | t5xxl_fp16.safetensors | models/text_encoders | Hugging Face |
Remarque :
- L’encodeur de texte PixArt nécessite de télécharger le contenu complet du dossier text_encoder
- Le fichier de l’encodeur de texte T5 est volumineux (environ 9,79 Go), il est recommandé d’utiliser un gestionnaire de téléchargement
Fichiers de Workflow
Workflow Texte-en-Vidéo
Workflow Image-en-Vidéo
Workflow Vidéo-en-Vidéo
Limitations d’Utilisation de LTX Video
Résolution et Fréquence d’Images
- La résolution doit être un multiple de 32
- La fréquence d’images doit être un multiple de 8 + 1 (par exemple, 65 images, 257 images, etc.)
- La résolution recommandée ne doit pas dépasser 720x1280
- Le nombre d’images recommandé ne doit pas dépasser 257 images
Directives de Prompt
- Doit être en anglais
- Plus le prompt est détaillé, mieux c’est
- Il est recommandé d’inclure des descriptions complètes des scènes, des actions et des détails
Tutoriel d’Utilisation du Workflow
Description de Base des Nœuds
Tous les workflows incluent les nœuds de base suivants :
- Nœud de Chargement de Modèle
LTXVLoader
: Charger le modèle principal LTX Video- Sélectionnez le fichier
ltx-video-2b-v0.9.safetensors
- Sélectionnez le fichier
LTXVCLIPModelLoader
: Charger l’encodeur de texte- Sélectionnez le fichier
PixArt-XL-2-1024-MS/text_encoder/model-00001-of-00002.safetensors
- Sélectionnez le fichier
LTXVModelConfigurator
: Configurer les paramètres du modèle- Définir les paramètres de base tels que la résolution, le nombre d’images et les FPS
- Activer éventuellement l’entrée de conditionnement
- Nœud de Traitement de Prompt
CLIPTextEncode (Positive)
: Encodage de prompt positif- Utiliser l’encodeur PixArt pour traiter les prompts positifs
CLIPTextEncode (Negative)
: Encodage de prompt négatif- Utiliser l’encodeur PixArt pour traiter les prompts négatifs
CFGGuider
: Contrôler la force du guidage de prompt- Plage de valeurs recommandée : 2-7
- Plus la valeur est grande, plus le contenu généré sera proche de la description du prompt
- Nœud de Contrôle d’Échantillonnage
KSamplerSelect
: Sélectionner le sampler- Il est recommandé d’utiliser le sampler Euler
BasicScheduler
: Définir le nombre d’étapes d’échantillonnage et le scheduler- Plage d’étapes : 10-25
- Type de scheduler : normal
RandomNoise
: Générer du bruit aléatoire- Une graine fixe peut être définie pour des résultats reproductibles
SamplerCustomAdvanced
: Exécuter le processus d’échantillonnage- Intégrer tous les paramètres liés à l’échantillonnage pour la génération finale
- Nœud de Sortie
VAEDecode
: Décoder les images générées- Utiliser le décodeur VAE intégré de LTX Video
VHS_VideoCombine
: Combiner la vidéo finale- Définir la fréquence d’images de sortie, le format et les paramètres d’encodage
- Prend en charge la prévisualisation de la vidéo générée
Tutoriel de Mode de Génération LTX Video
Texte-en-Vidéo
- Définir les Paramètres de Base
Dans
LTXVModelConfigurator
:
- Résolution : 768x512
- Nombre d’images : 65 (environ 2,5 secondes)
- FPS : 25
- Écrire les Prompts
- Les prompts positifs doivent être aussi détaillés que possible, décrivant les scènes, les actions et les détails
- Les prompts négatifs sont recommandés pour inclure : “worst quality, inconsistent motion, blurry, jittery, distorted, watermarks”
- Ajuster les Paramètres d’Échantillonnage
- Étapes : 20 étapes recommandées
- CFG : 4-7 recommandé
- Sampler : Euler
- Scheduler : Normal
Image-en-Vidéo
En plus des paramètres de base, vous avez également besoin de :
- Préparer les Images de Référence
- Utiliser le nœud
LoadImage
pour charger les images de référence - Les images doivent idéalement correspondre au ratio de résolution cible
- Ajuster les Paramètres de Conversion
- Abaisser la valeur CFG (3-5 recommandé) pour maintenir la cohérence avec l’image de référence
- Les étapes d’échantillonnage peuvent être réduites de manière appropriée (15-20)
Vidéo-en-Vidéo
- Charger la Vidéo Source
Utiliser le nœud
VHS_LoadVideo
:
- Définir une fréquence d’images appropriée
- Choisir si la résolution doit être ajustée
- Réglage des Paramètres
- Utiliser une valeur CFG plus basse (2-4)
- Réduire les étapes d’échantillonnage (10-15)
- Ajuster le paramètre
sigma_shift
si nécessaire
Guide d’Optimisation de LTX Video
Optimisation des Paramètres
-
Optimisation des Prompts
- Utiliser des descriptions détaillées et spécifiques
- Inclure des descriptions des actions et des transitions de scène
- Ajouter du vocabulaire lié à la cinématographie
-
Optimisation des Performances
- Réduire la résolution de manière appropriée pour augmenter la vitesse
- Diminuer le nombre d’images pour les tests
- Utiliser moins d’étapes d’échantillonnage
-
Optimisation de la Qualité
- Pour des images tremblantes : abaisser la valeur CFG
- Pour des détails insuffisants : augmenter les étapes d’échantillonnage
- Pour des transitions non naturelles : optimiser les descriptions de prompts
Conseils d’Application Avancée de LTX Video
Production de Longues Vidéos
- Générer plusieurs segments séparément
- Maintenir la cohérence stylistique à travers les prompts
- Utiliser des outils de montage vidéo pour l’assemblage en post-production
Contrôle du Style
- Inclure des descriptions de style artistique spécifiques dans les prompts
- Utiliser des images de référence pour guider le style
- Ajuster la force du style via les valeurs CFG
Contrôle des Actions
- Décrire en détail les processus d’action dans les prompts
- Utiliser des images clés comme références
- Ajuster les fréquences d’images de manière appropriée pour les effets souhaités
Exemples et Modèles de LTX Video
Exemples de Scènes
- Transition de Scène Simple
Prompt Positif : “Un lac serein au lever du soleil, des ondulations douces sur la surface de l’eau, une brume matinale s’élevant lentement, des oiseaux volant à travers le ciel doré” Étapes d’Échantillonnage : 20 CFG : 4
- Séquence d’Action Complexe Prompt Positif : “Un danseur professionnel exécutant une séquence de danse contemporaine gracieuse, des mouvements fluides, des pirouettes et des sauts dynamiques, un éclairage doux, un cadre de studio” Étapes d’Échantillonnage : 25 CFG : 5
N’oubliez pas de sauvegarder vos combinaisons de paramètres préférées pour une utilisation future. Grâce à des expérimentations et des ajustements continus, vous maîtriserez progressivement l’utilisation de LTX Video.
Modèle de Prompt LTX Video
The turquoise waves crash against the dark, jagged rocks of the shore, sending white foam spraying into the air. The scene is dominated by the stark contrast between the bright blue water and the dark, almost black rocks. The water is a clear, turquoise color, and the waves are capped with white foam. The rocks are dark and jagged, and they are covered in patches of green moss. The shore is lined with lush green vegetation, including trees and bushes. In the background, there are rolling hills covered in dense forest. The sky is cloudy, and the light is dim.
Liens de Ressources LTX Video
Ressources Officielles LTX Video
- Site Officiel de LTX Video
- Documentation Technique de LTX Video
- Dépôt GitHub de LTX Video
- Dépôt du Plugin ComfyUI-LTXVideo