Tutorial detallado del flujo de trabajo de LTX Video
Introducción al modelo LTX Video
LTX Video es un modelo de generación de video con arquitectura DiT de solo 2B parámetros, que tiene las siguientes características:
- Generación en tiempo real: puede generar videos más rápido que la velocidad de reproducción
- Salida de alta calidad: videos fluidos de resolución 768x512 a 24FPS
- Múltiples modos de generación: admite conversión de texto a video, imagen a video y video a video
Preparación del entorno
Requisitos del sistema
- Python 3.10.5 o superior
- CUDA 12.2 o superior
- PyTorch >= 2.1.2
Entorno ComfyUI
-
Actualizar ComfyUI Primero asegúrate de que tu ComfyUI esté actualizado a la última versión. Si no sabes cómo actualizar y mejorar ComfyUI, consulta Cómo actualizar y mejorar ComfyUI
-
Instalar el plugin ComfyUI-LTXVideo Hay dos formas de instalación:
Método 1: A través de ComfyUI Manager (recomendado)
- Abrir ComfyUI Manager
- Buscar “LTXVideo”
- Hacer clic en instalar
Método 2: Instalación manual
- Ir al directorio
custom_nodes
de ComfyUI - Clonar el repositorio:
git clone https://github.com/Lightricks/ComfyUI-LTXVideo
- Instalar dependencias:
pip install -r requirements.txt
Si no estás familiarizado con la instalación de plugins, consulta Tutorial de instalación de plugins de ComfyUI
Descarga de modelos LTX Video y modelos relacionados
Necesitas descargar los siguientes archivos de modelo:
Nombre del modelo | Nombre del archivo | Ubicación de instalación | Enlace de descarga |
---|---|---|---|
Modelo LTX Video | ltx-video-2b-v0.9.safetensors | models/checkpoints | Hugging Face |
Codificador de texto PixArt | model-00001-of-00002.safetensors | models/text_encoders/PixArt-XL-2-1024-MS/text_encoder | Hugging Face |
Codificador de texto T5 | t5xxl_fp16.safetensors | models/text_encoders | Hugging Face |
Nota:
- El codificador de texto PixArt requiere descargar todo el contenido de la carpeta text_encoder
- El archivo del codificador de texto T5 es grande (aproximadamente 9.79GB), se recomienda usar un gestor de descargas
Archivos de flujo de trabajo de LTX Video
Flujo de trabajo de texto a video
Flujo de trabajo de imagen a video
Flujo de trabajo de video a video
Limitaciones de uso de LTX Video
Resolución y tasa de cuadros
- La resolución debe ser un múltiplo de 32
- La tasa de cuadros debe ser un múltiplo de 8 + 1 (como 65 cuadros, 257 cuadros, etc.)
- Se recomienda que la resolución no supere 720x1280
- Se recomienda que la tasa de cuadros no supere 257 cuadros
Normas de palabras clave
- Deben estar en inglés
- Cuanto más detalladas sean las palabras clave, mejor
- Se recomienda incluir descripciones completas de escenas, acciones y detalles
Tutorial de uso del flujo de trabajo
Descripción de nodos básicos
Todos los flujos de trabajo incluyen los siguientes nodos básicos:
- Nodos de carga de modelo
LTXVLoader
: Carga el modelo principal de LTX Video- Selecciona el archivo
ltx-video-2b-v0.9.safetensors
- Selecciona el archivo
LTXVCLIPModelLoader
: Carga el codificador de texto- Selecciona el archivo
PixArt-XL-2-1024-MS/text_encoder/model-00001-of-00002.safetensors
- Selecciona el archivo
LTXVModelConfigurator
: Configura los parámetros del modelo- Establece la resolución, la tasa de cuadros, FPS y otros parámetros básicos
- Se puede elegir habilitar la entrada de conditioning
- Nodos de procesamiento de palabras clave
CLIPTextEncode (Positive)
: Codificación de palabras clave positivas- Utiliza el codificador PixArt para procesar las palabras clave positivas
CLIPTextEncode (Negative)
: Codificación de palabras clave negativas- Utiliza el codificador PixArt para procesar las palabras clave negativas
CFGGuider
: Controla la intensidad de la guía de palabras clave- Rango de valores recomendado: 2-7
- Cuanto mayor sea el número, más se acercará el contenido generado a la descripción de las palabras clave
- Nodos de control de muestreo
KSamplerSelect
: Selecciona el muestreador- Se recomienda usar el muestreador euler
BasicScheduler
: Establece el número de pasos de muestreo y el programador- Rango de pasos: 10-25
- Tipo de programador: normal
RandomNoise
: Genera ruido aleatorio- Se puede establecer una semilla fija para obtener resultados reproducibles
SamplerCustomAdvanced
: Ejecuta el proceso de muestreo- Integra todos los parámetros relacionados con el muestreo para la generación final
- Nodos de salida
VAEDecode
: Decodifica los cuadros generados- Utiliza el decodificador VAE integrado de LTX Video
VHS_VideoCombine
: Combina el video final- Se pueden establecer la tasa de cuadros, el formato y los parámetros de codificación del video de salida
- Soporta la vista previa del video generado
Tutorial de modos de generación de LTX Video
Texto a video (Text-to-Video)
- Configurar parámetros básicos
En
LTXVModelConfigurator
:
- Resolución: 768x512
- Tasa de cuadros: 65 (aproximadamente 2.5 segundos)
- FPS: 25
- Escribir palabras clave
- Las palabras clave positivas deben ser lo más detalladas posible, describiendo la escena, las acciones y los detalles
- Se recomienda que las palabras clave negativas incluyan: “peor calidad, movimiento inconsistente, borroso, tembloroso, distorsionado, marcas de agua”
- Ajustar parámetros de muestreo
- Pasos: se recomienda 20 pasos
- CFG: se recomienda 4-7
- Muestreador: euler
- Programador: normal
Imagen a video (Image-to-Video)
Además de la configuración básica, también se necesita:
- Preparar la imagen de referencia
- Utiliza el nodo
LoadImage
para cargar la imagen de referencia - La imagen debe cumplir con la proporción de resolución objetivo
- Ajustar parámetros de conversión
- Reducir el valor de CFG (se recomienda 3-5) para mantener la coherencia con la imagen de referencia
- Se pueden reducir los pasos de muestreo (15-20)
Video a video (Video-to-Video)
- Cargar el video fuente
Utiliza el nodo
VHS_LoadVideo
:
- Establece la tasa de cuadros adecuada
- Elige si es necesario ajustar la resolución
- Ajuste de parámetros
- Utiliza un CFG más bajo (2-4)
- Reduce los pasos de muestreo (10-15)
- Ajusta el parámetro
sigma_shift
según sea necesario
Guía de optimización de LTX Video
Optimización de parámetros
-
Optimización de palabras clave
- Utiliza descripciones detalladas y específicas
- Incluye descripciones de acciones y transiciones de escena
- Agrega vocabulario relacionado con el lenguaje cinematográfico
-
Optimización del rendimiento
- Reduce la resolución para aumentar la velocidad
- Reduce la tasa de cuadros para realizar pruebas
- Utiliza menos pasos de muestreo
-
Optimización de calidad
- Para temblores en la imagen: reduce el valor de CFG
- Para falta de detalles: aumenta los pasos de muestreo
- Para transiciones poco naturales: optimiza la descripción de palabras clave
Consejos avanzados para aplicaciones de LTX Video
Producción de videos largos
- Genera múltiples segmentos por separado
- Mantén la coherencia de estilo a través de palabras clave
- Utiliza herramientas de edición de video para la unión posterior
Control de estilo
- Incluye descripciones de estilo artístico específicas en las palabras clave
- Utiliza imágenes de referencia para guiar el estilo
- Ajusta la intensidad del estilo a través del valor de CFG
Control de acciones
- Describe detalladamente el proceso de acción en las palabras clave
- Utiliza fotogramas clave como referencia
- Ajusta la tasa de cuadros para obtener el efecto deseado
Ejemplos y plantillas de LTX Video
Ejemplos de escena
- Transición de escena simple
Palabras clave positivas: “Un lago sereno al amanecer, suaves ondas en la superficie del agua, niebla matutina levantándose lentamente, aves volando a través del cielo dorado” Pasos de muestreo: 20 CFG: 4
- Secuencia de acción compleja Palabras clave positivas: “Un bailarín profesional realizando una secuencia de danza contemporánea elegante, movimientos fluidos, giros dinámicos y saltos, iluminación suave, entorno de estudio” Pasos de muestreo: 25 CFG: 5
Recuerda guardar las combinaciones de parámetros que te satisfagan para su uso posterior. A través de la experimentación y ajustes continuos, irás dominando las técnicas de uso de LTX Video.
Plantilla de palabras clave de LTX Video
Las olas turquesas chocan contra las oscuras y afiladas rocas de la costa, enviando espuma blanca al aire. La escena está dominada por el fuerte contraste entre el brillante agua azul y las oscuras, casi negras, rocas. El agua es de un color turquesa claro, y las olas están cubiertas de espuma blanca. Las rocas son oscuras y afiladas, y están cubiertas de parches de musgo verde. La costa está bordeada de vegetación verde exuberante, incluyendo árboles y arbustos. En el fondo, hay colinas onduladas cubiertas de densa vegetación. El cielo está nublado y la luz es tenue.
Enlaces de recursos de LTX Video
Recursos oficiales de LTX Video
- Sitio web oficial de LTX Video
- Documentación técnica de LTX Video
- Repositorio de GitHub de LTX Video
- Repositorio del plugin ComfyUI-LTXVideo