Aucun article pour le moment. Revenez plus tard !

Guide étape par étape du LTX Video Workflow

Flux de travail LTX Video

Introduction au modèle LTX Video

LTX Video est un modèle révolutionnaire de génération de vidéos basé sur l’architecture DiT avec seulement 2 milliards de paramètres, offrant :

Génération en temps réel : Capable de générer des vidéos plus rapidement que la lecture en temps réel
Sortie de haute qualité : Sortie vidéo fluide en résolution 768x512 et 24FPS
Modes de génération multiples : Prend en charge la conversion texte-en-vidéo, image-en-vidéo et vidéo-en-vidéo

Exigences de configuration

Exigences système

Python 3.10.5 ou supérieur
CUDA 12.2 ou supérieur
PyTorch >= 2.1.2

Environnement ComfyUI

Mettre à jour ComfyUI Tout d’abord, assurez-vous que votre ComfyUI est mis à jour vers la dernière version. Si vous ne savez pas comment mettre à jour ComfyUI, veuillez vous référer à Comment mettre à jour ComfyUI
Installer le nœud personnalisé ComfyUI-LTXVideo Il existe deux méthodes d’installation :

Méthode 1 : Via le gestionnaire ComfyUI (Recommandé)

Ouvrez le gestionnaire ComfyUI
Recherchez “LTXVideo”
Cliquez sur Installer

Méthode 2 : Installation manuelle

Accédez au répertoire custom_nodes de ComfyUI
Clonez le dépôt :

git clone https://github.com/Lightricks/ComfyUI-LTXVideo

Installer les dépendances :

pip install -r requirements.txt

Si vous n’êtes pas familier avec l’installation de plugins, veuillez vous référer au Guide d’Installation des Plugins ComfyUI

Téléchargement des Modèles Requis

Vous devez télécharger les fichiers de modèle suivants :

Nom du Modèle	Nom du Fichier	Chemin d’Installation	Lien de Téléchargement
Modèle LTX Video	`ltx-video-2b-v0.9.safetensors`	`models/checkpoints`	Hugging Face
Encodeur de Texte PixArt	`model-00001-of-00002.safetensors`	`models/text_encoders/PixArt-XL-2-1024-MS/text_encoder`	Hugging Face
Encodeur de Texte T5	`t5xxl_fp16.safetensors`	`models/text_encoders`	Hugging Face

Remarque :

L’encodeur de texte PixArt nécessite de télécharger le contenu complet du dossier text_encoder

Le fichier de l’encodeur de texte T5 est volumineux (environ 9,79 Go), il est recommandé d’utiliser un gestionnaire de téléchargement

Fichiers de Workflow

Workflow Texte-en-Vidéo

Workflow Image-en-Vidéo

Workflow Vidéo-en-Vidéo

Limitations d’Utilisation de LTX Video

Résolution et Fréquence d’Images

La résolution doit être un multiple de 32
La fréquence d’images doit être un multiple de 8 + 1 (par exemple, 65 images, 257 images, etc.)
La résolution recommandée ne doit pas dépasser 720x1280
Le nombre d’images recommandé ne doit pas dépasser 257 images

Directives de Prompt

Doit être en anglais
Plus le prompt est détaillé, mieux c’est
Il est recommandé d’inclure des descriptions complètes des scènes, des actions et des détails

Tutoriel d’Utilisation du Workflow

Description de Base des Nœuds

Tous les workflows incluent les nœuds de base suivants :

Nœud de Chargement de Modèle

LTXVLoader: Charger le modèle principal LTX Video
- Sélectionnez le fichier ltx-video-2b-v0.9.safetensors
LTXVCLIPModelLoader: Charger l’encodeur de texte
- Sélectionnez le fichier PixArt-XL-2-1024-MS/text_encoder/model-00001-of-00002.safetensors
LTXVModelConfigurator: Configurer les paramètres du modèle
- Définir les paramètres de base tels que la résolution, le nombre d’images et les FPS
- Activer éventuellement l’entrée de conditionnement

Nœud de Traitement de Prompt

CLIPTextEncode (Positive): Encodage de prompt positif
- Utiliser l’encodeur PixArt pour traiter les prompts positifs
CLIPTextEncode (Negative): Encodage de prompt négatif
- Utiliser l’encodeur PixArt pour traiter les prompts négatifs
CFGGuider: Contrôler la force du guidage de prompt
- Plage de valeurs recommandée : 2-7
- Plus la valeur est grande, plus le contenu généré sera proche de la description du prompt

Nœud de Contrôle d’Échantillonnage

KSamplerSelect: Sélectionner le sampler
- Il est recommandé d’utiliser le sampler Euler
BasicScheduler: Définir le nombre d’étapes d’échantillonnage et le scheduler
- Plage d’étapes : 10-25
- Type de scheduler : normal
RandomNoise: Générer du bruit aléatoire
- Une graine fixe peut être définie pour des résultats reproductibles
SamplerCustomAdvanced: Exécuter le processus d’échantillonnage
- Intégrer tous les paramètres liés à l’échantillonnage pour la génération finale

Nœud de Sortie

VAEDecode: Décoder les images générées
- Utiliser le décodeur VAE intégré de LTX Video
VHS_VideoCombine: Combiner la vidéo finale
- Définir la fréquence d’images de sortie, le format et les paramètres d’encodage
- Prend en charge la prévisualisation de la vidéo générée

Tutoriel de Mode de Génération LTX Video

Texte-en-Vidéo

Définir les Paramètres de Base Dans LTXVModelConfigurator :

Résolution : 768x512
Nombre d’images : 65 (environ 2,5 secondes)
FPS : 25

Écrire les Prompts

Les prompts positifs doivent être aussi détaillés que possible, décrivant les scènes, les actions et les détails
Les prompts négatifs sont recommandés pour inclure : “worst quality, inconsistent motion, blurry, jittery, distorted, watermarks”

Ajuster les Paramètres d’Échantillonnage

Étapes : 20 étapes recommandées
CFG : 4-7 recommandé
Sampler : Euler
Scheduler : Normal

Image-en-Vidéo

En plus des paramètres de base, vous avez également besoin de :

Préparer les Images de Référence

Utiliser le nœud LoadImage pour charger les images de référence
Les images doivent idéalement correspondre au ratio de résolution cible

Ajuster les Paramètres de Conversion

Abaisser la valeur CFG (3-5 recommandé) pour maintenir la cohérence avec l’image de référence
Les étapes d’échantillonnage peuvent être réduites de manière appropriée (15-20)

Vidéo-en-Vidéo

Charger la Vidéo Source Utiliser le nœud VHS_LoadVideo :

Définir une fréquence d’images appropriée
Choisir si la résolution doit être ajustée

Réglage des Paramètres

Utiliser une valeur CFG plus basse (2-4)
Réduire les étapes d’échantillonnage (10-15)
Ajuster le paramètre sigma_shift si nécessaire

Guide d’Optimisation de LTX Video

Optimisation des Paramètres

Optimisation des Prompts
- Utiliser des descriptions détaillées et spécifiques
- Inclure des descriptions des actions et des transitions de scène
- Ajouter du vocabulaire lié à la cinématographie
Optimisation des Performances
- Réduire la résolution de manière appropriée pour augmenter la vitesse
- Diminuer le nombre d’images pour les tests
- Utiliser moins d’étapes d’échantillonnage
Optimisation de la Qualité
- Pour des images tremblantes : abaisser la valeur CFG
- Pour des détails insuffisants : augmenter les étapes d’échantillonnage
- Pour des transitions non naturelles : optimiser les descriptions de prompts

Conseils d’Application Avancée de LTX Video

Production de Longues Vidéos

Générer plusieurs segments séparément
Maintenir la cohérence stylistique à travers les prompts
Utiliser des outils de montage vidéo pour l’assemblage en post-production

Contrôle du Style

Inclure des descriptions de style artistique spécifiques dans les prompts
Utiliser des images de référence pour guider le style
Ajuster la force du style via les valeurs CFG

Contrôle des Actions

Décrire en détail les processus d’action dans les prompts
Utiliser des images clés comme références
Ajuster les fréquences d’images de manière appropriée pour les effets souhaités

Exemples et Modèles de LTX Video

Exemples de Scènes

Transition de Scène Simple

Prompt Positif : “Un lac serein au lever du soleil, des ondulations douces sur la surface de l’eau, une brume matinale s’élevant lentement, des oiseaux volant à travers le ciel doré” Étapes d’Échantillonnage : 20 CFG : 4

Séquence d’Action Complexe Prompt Positif : “Un danseur professionnel exécutant une séquence de danse contemporaine gracieuse, des mouvements fluides, des pirouettes et des sauts dynamiques, un éclairage doux, un cadre de studio” Étapes d’Échantillonnage : 25 CFG : 5

N’oubliez pas de sauvegarder vos combinaisons de paramètres préférées pour une utilisation future. Grâce à des expérimentations et des ajustements continus, vous maîtriserez progressivement l’utilisation de LTX Video.

Modèle de Prompt LTX Video

The turquoise waves crash against the dark, jagged rocks of the shore, sending white foam spraying into the air. The scene is dominated by the stark contrast between the bright blue water and the dark, almost black rocks. The water is a clear, turquoise color, and the waves are capped with white foam. The rocks are dark and jagged, and they are covered in patches of green moss. The shore is lined with lush green vegetation, including trees and bushes. In the background, there are rolling hills covered in dense forest. The sky is cloudy, and the light is dim.

RunComfy

Comfy Deploy

Comfy Online

Comfy.ICU

InstaSD