Skip to content

Tutorial detallado del flujo de trabajo de LTX Video

LTX Video Workflow

Introducción al modelo LTX Video

LTX Video es un modelo de generación de video con arquitectura DiT de solo 2B parámetros, que tiene las siguientes características:

  • Generación en tiempo real: puede generar videos más rápido que la velocidad de reproducción
  • Salida de alta calidad: videos fluidos de resolución 768x512 a 24FPS
  • Múltiples modos de generación: admite conversión de texto a video, imagen a video y video a video

Preparación del entorno

Requisitos del sistema

  • Python 3.10.5 o superior
  • CUDA 12.2 o superior
  • PyTorch >= 2.1.2

Entorno ComfyUI

  1. Actualizar ComfyUI Primero asegúrate de que tu ComfyUI esté actualizado a la última versión. Si no sabes cómo actualizar y mejorar ComfyUI, consulta Cómo actualizar y mejorar ComfyUI

  2. Instalar el plugin ComfyUI-LTXVideo Hay dos formas de instalación:

Método 1: A través de ComfyUI Manager (recomendado)

  1. Abrir ComfyUI Manager
  2. Buscar “LTXVideo”
  3. Hacer clic en instalar

Método 2: Instalación manual

  1. Ir al directorio custom_nodes de ComfyUI
  2. Clonar el repositorio:
git clone https://github.com/Lightricks/ComfyUI-LTXVideo
  1. Instalar dependencias:
pip install -r requirements.txt

Si no estás familiarizado con la instalación de plugins, consulta Tutorial de instalación de plugins de ComfyUI

Descarga de modelos LTX Video y modelos relacionados

Necesitas descargar los siguientes archivos de modelo:

Nombre del modeloNombre del archivoUbicación de instalaciónEnlace de descarga
Modelo LTX Videoltx-video-2b-v0.9.safetensorsmodels/checkpointsHugging Face
Codificador de texto PixArtmodel-00001-of-00002.safetensorsmodels/text_encoders/PixArt-XL-2-1024-MS/text_encoderHugging Face
Codificador de texto T5t5xxl_fp16.safetensorsmodels/text_encodersHugging Face

Nota:

  1. El codificador de texto PixArt requiere descargar todo el contenido de la carpeta text_encoder
  2. El archivo del codificador de texto T5 es grande (aproximadamente 9.79GB), se recomienda usar un gestor de descargas

Archivos de flujo de trabajo de LTX Video

Flujo de trabajo de texto a video

Flujo de trabajo de texto a video de LTX Video

Flujo de trabajo de imagen a video

Flujo de trabajo de imagen a video de LTX Video

Flujo de trabajo de video a video

Flujo de trabajo de video a video de LTX Video

Limitaciones de uso de LTX Video

Resolución y tasa de cuadros

  • La resolución debe ser un múltiplo de 32
  • La tasa de cuadros debe ser un múltiplo de 8 + 1 (como 65 cuadros, 257 cuadros, etc.)
  • Se recomienda que la resolución no supere 720x1280
  • Se recomienda que la tasa de cuadros no supere 257 cuadros

Normas de palabras clave

  • Deben estar en inglés
  • Cuanto más detalladas sean las palabras clave, mejor
  • Se recomienda incluir descripciones completas de escenas, acciones y detalles

Tutorial de uso del flujo de trabajo

Descripción de nodos básicos

Todos los flujos de trabajo incluyen los siguientes nodos básicos:

  1. Nodos de carga de modelo
  • LTXVLoader: Carga el modelo principal de LTX Video
    • Selecciona el archivo ltx-video-2b-v0.9.safetensors
  • LTXVCLIPModelLoader: Carga el codificador de texto
    • Selecciona el archivo PixArt-XL-2-1024-MS/text_encoder/model-00001-of-00002.safetensors
  • LTXVModelConfigurator: Configura los parámetros del modelo
    • Establece la resolución, la tasa de cuadros, FPS y otros parámetros básicos
    • Se puede elegir habilitar la entrada de conditioning
  1. Nodos de procesamiento de palabras clave
  • CLIPTextEncode (Positive): Codificación de palabras clave positivas
    • Utiliza el codificador PixArt para procesar las palabras clave positivas
  • CLIPTextEncode (Negative): Codificación de palabras clave negativas
    • Utiliza el codificador PixArt para procesar las palabras clave negativas
  • CFGGuider: Controla la intensidad de la guía de palabras clave
    • Rango de valores recomendado: 2-7
    • Cuanto mayor sea el número, más se acercará el contenido generado a la descripción de las palabras clave
  1. Nodos de control de muestreo
  • KSamplerSelect: Selecciona el muestreador
    • Se recomienda usar el muestreador euler
  • BasicScheduler: Establece el número de pasos de muestreo y el programador
    • Rango de pasos: 10-25
    • Tipo de programador: normal
  • RandomNoise: Genera ruido aleatorio
    • Se puede establecer una semilla fija para obtener resultados reproducibles
  • SamplerCustomAdvanced: Ejecuta el proceso de muestreo
    • Integra todos los parámetros relacionados con el muestreo para la generación final
  1. Nodos de salida
  • VAEDecode: Decodifica los cuadros generados
    • Utiliza el decodificador VAE integrado de LTX Video
  • VHS_VideoCombine: Combina el video final
    • Se pueden establecer la tasa de cuadros, el formato y los parámetros de codificación del video de salida
    • Soporta la vista previa del video generado

Tutorial de modos de generación de LTX Video

Texto a video (Text-to-Video)

  1. Configurar parámetros básicos En LTXVModelConfigurator:
  • Resolución: 768x512
  • Tasa de cuadros: 65 (aproximadamente 2.5 segundos)
  • FPS: 25
  1. Escribir palabras clave
  • Las palabras clave positivas deben ser lo más detalladas posible, describiendo la escena, las acciones y los detalles
  • Se recomienda que las palabras clave negativas incluyan: “peor calidad, movimiento inconsistente, borroso, tembloroso, distorsionado, marcas de agua”
  1. Ajustar parámetros de muestreo
  • Pasos: se recomienda 20 pasos
  • CFG: se recomienda 4-7
  • Muestreador: euler
  • Programador: normal

Imagen a video (Image-to-Video)

Además de la configuración básica, también se necesita:

  1. Preparar la imagen de referencia
  • Utiliza el nodo LoadImage para cargar la imagen de referencia
  • La imagen debe cumplir con la proporción de resolución objetivo
  1. Ajustar parámetros de conversión
  • Reducir el valor de CFG (se recomienda 3-5) para mantener la coherencia con la imagen de referencia
  • Se pueden reducir los pasos de muestreo (15-20)

Video a video (Video-to-Video)

  1. Cargar el video fuente Utiliza el nodo VHS_LoadVideo:
  • Establece la tasa de cuadros adecuada
  • Elige si es necesario ajustar la resolución
  1. Ajuste de parámetros
  • Utiliza un CFG más bajo (2-4)
  • Reduce los pasos de muestreo (10-15)
  • Ajusta el parámetro sigma_shift según sea necesario

Guía de optimización de LTX Video

Optimización de parámetros

  1. Optimización de palabras clave

    • Utiliza descripciones detalladas y específicas
    • Incluye descripciones de acciones y transiciones de escena
    • Agrega vocabulario relacionado con el lenguaje cinematográfico
  2. Optimización del rendimiento

    • Reduce la resolución para aumentar la velocidad
    • Reduce la tasa de cuadros para realizar pruebas
    • Utiliza menos pasos de muestreo
  3. Optimización de calidad

    • Para temblores en la imagen: reduce el valor de CFG
    • Para falta de detalles: aumenta los pasos de muestreo
    • Para transiciones poco naturales: optimiza la descripción de palabras clave

Consejos avanzados para aplicaciones de LTX Video

Producción de videos largos

  • Genera múltiples segmentos por separado
  • Mantén la coherencia de estilo a través de palabras clave
  • Utiliza herramientas de edición de video para la unión posterior

Control de estilo

  • Incluye descripciones de estilo artístico específicas en las palabras clave
  • Utiliza imágenes de referencia para guiar el estilo
  • Ajusta la intensidad del estilo a través del valor de CFG

Control de acciones

  • Describe detalladamente el proceso de acción en las palabras clave
  • Utiliza fotogramas clave como referencia
  • Ajusta la tasa de cuadros para obtener el efecto deseado

Ejemplos y plantillas de LTX Video

Ejemplos de escena

  1. Transición de escena simple

Palabras clave positivas: “Un lago sereno al amanecer, suaves ondas en la superficie del agua, niebla matutina levantándose lentamente, aves volando a través del cielo dorado” Pasos de muestreo: 20 CFG: 4

  1. Secuencia de acción compleja Palabras clave positivas: “Un bailarín profesional realizando una secuencia de danza contemporánea elegante, movimientos fluidos, giros dinámicos y saltos, iluminación suave, entorno de estudio” Pasos de muestreo: 25 CFG: 5

Recuerda guardar las combinaciones de parámetros que te satisfagan para su uso posterior. A través de la experimentación y ajustes continuos, irás dominando las técnicas de uso de LTX Video.

Plantilla de palabras clave de LTX Video

Las olas turquesas chocan contra las oscuras y afiladas rocas de la costa, enviando espuma blanca al aire. La escena está dominada por el fuerte contraste entre el brillante agua azul y las oscuras, casi negras, rocas. El agua es de un color turquesa claro, y las olas están cubiertas de espuma blanca. Las rocas son oscuras y afiladas, y están cubiertas de parches de musgo verde. La costa está bordeada de vegetación verde exuberante, incluyendo árboles y arbustos. En el fondo, hay colinas onduladas cubiertas de densa vegetación. El cielo está nublado y la luz es tenue.

Enlaces de recursos de LTX Video

Recursos oficiales de LTX Video

Descarga de modelos de LTX Video

Servicios en línea de LTX Video

Recursos comunitarios de LTX Video

Soporte y ayuda