Skip to content
Ayuda a ComfyUI Wiki a eliminar anuncios Conviértete en Patrocinador
Tutorial de ComfyUITutorial Avanzado de ComfyUIGuía y ejemplos del flujo de trabajo de HunyuanVideo texto a vídeo

Guía y ejemplos del flujo de trabajo de HunyuanVideo texto a vídeo

Este tutorial explicará en detalle cómo generar vídeos a partir de texto usando el modelo HunyuanVideo de Tencent en ComfyUI. Te guiaremos paso a paso a través de todo el proceso, comenzando con la configuración del entorno.

1. Requisitos de hardware

Antes de comenzar, asegúrate de que tu equipo cumpla con los siguientes requisitos mínimos:

  • GPU: Tarjeta NVIDIA compatible con CUDA
    • Requisito mínimo: 60GB VRAM (para generar vídeos de 720p×1280p×129 frames)
    • Configuración recomendada: 80GB VRAM (para mejor calidad de generación)
    • Configuración mínima utilizable: 45GB VRAM (para generar vídeos de 544p×960p×129 frames)
  • Sistema operativo: Linux (entorno de prueba oficial)
  • Versión CUDA: Se recomienda CUDA 11.8 o 12.0+

Especificaciones de hardware de: https://huggingface.co/tencent/HunyuanVideo

1. Instalar y actualizar ComfyUI a la última versión

Si aún no has instalado ComfyUI, consulta las siguientes secciones para completar la instalación:

Tutorial de instalación de ComfyUI Cómo actualizar ComfyUI

Es necesario instalar y actualizar ComfyUI a la última versión para tener acceso al nodo ‘EmptyHunyuanLatentVideo’

2. Descarga e instalación del modelo

HunyuanVideo requiere la descarga de los siguientes archivos de modelo:

2.1 Archivo del modelo principal

Descarga los siguientes archivos desde la página de descarga del modelo principal de HunyuanVideo:

Nombre del archivoTamañoDirectorio de destino
hunyuan_video_t2v_720p_bf16.safetensors~25.6GBComfyUI/models/diffusion_models

2.2 Archivos del codificador de texto

Descarga los siguientes archivos desde la página de descarga del codificador de texto de HunyuanVideo:

Nombre del archivoTamañoDirectorio de destino
clip_l.safetensors~246MBComfyUI/models/text_encoders
llava_llama3_fp8_scaled.safetensors~9.09GBComfyUI/models/text_encoders

2.3 Archivo del modelo VAE

Descarga los siguientes archivos desde la página de descarga del VAE de HunyuanVideo:

Nombre del archivoTamañoDirectorio de destino
hunyuan_video_vae_bf16.safetensors~493MBComfyUI/models/vae

Estructura de referencia del directorio de modelos

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └── hunyuan_video_t2v_720p_bf16.safetensors  # Archivo del modelo principal
│   ├── text_encoders/
│   │   ├── clip_l.safetensors                       # Codificador de texto CLIP
│   │   └── llava_llama3_fp8_scaled.safetensors      # Codificador de texto LLaVA
│   └── vae/
│       └── hunyuan_video_vae_bf16.safetensors       # Archivo del modelo VAE

3. Descarga del archivo de flujo de trabajo

Formato Json sin procesar

Fuente del archivo de flujo de trabajo: Descarga del flujo de trabajo de HunyuanVideo

Flujo de trabajo básico de generación de video

HunyuanVideo admite las siguientes configuraciones de resolución:

ResoluciónRelación 9:16Relación 16:9Relación 4:3Relación 3:4Relación 1:1
540p544×960×129f960×544×129f624×832×129f832×624×129f720×720×129f
720p (recomendado)720×1280×129f1280×720×129f1104×832×129f832×1104×129f960×960×129f

4. Explicación de los nodos del flujo de trabajo

4.1 Nodos de carga de modelos

  1. UNETLoader

    • Propósito: Cargar el archivo del modelo principal
    • Parámetros:
      • Model: hunyuan_video_t2v_720p_bf16.safetensors
      • Weight Type: default (seleccionar tipo fp8 si hay memoria insuficiente)
  2. DualCLIPLoader

    • Propósito: Cargar modelos de codificador de texto
    • Parámetros:
      • CLIP 1: clip_l.safetensors
      • CLIP 2: llava_llama3_fp8_scaled.safetensors
      • Text Encoder: hunyuan_video
  3. VAELoader

    • Propósito: Cargar modelo VAE
    • Parámetros:
      • VAE Model: hunyuan_video_vae_bf16.safetensors

4.2 Nodos clave de generación de video

  1. EmptyHunyuanLatentVideo

    • Propósito: Crear espacio latente de video
    • Parámetros:
      • Width: Ancho del video (ej. 848)
      • Height: Alto del video (ej. 480)
      • Frame Count: Número de frames (ej. 73)
      • Batch Size: Tamaño del lote (por defecto 1)
  2. CLIPTextEncode

    • Propósito: Codificación de texto indicativo
    • Parámetros:
      • Text: Indicaciones positivas (describe lo que quieres generar)
      • Se recomienda usar descripciones detalladas en inglés
  3. FluxGuidance

    • Propósito: Controlar la intensidad de la guía de generación
    • Parámetros:
      • Guidance Scale: Intensidad de guía (por defecto 6.0)
      • Valores más altos producen resultados más cercanos al texto, pero pueden afectar la calidad del video
  4. KSamplerSelect

    • Propósito: Seleccionar el muestreador
    • Parámetros:
      • Sampler: Método de muestreo (por defecto euler)
      • Otras opciones: euler_ancestral, dpm++_2m, etc.
  5. BasicScheduler

    • Propósito: Configurar el programador de muestreo
    • Parámetros:
      • Scheduler: Método de programación (por defecto simple)
      • Steps: Pasos de muestreo (recomendado 20-30)
      • Denoise: Intensidad de eliminación de ruido (por defecto 1.0)

4.3 Nodos de decodificación y guardado de video

  1. VAEDecodeTiled

    • Propósito: Decodificar video del espacio latente a video real
    • Parámetros:
      • Tile Size: 256 (reducir si hay memoria insuficiente)
      • Overlap: 64 (reducir si hay memoria insuficiente)

    Nota: Preferir VAEDecodeTiled sobre VAEDecode por su menor consumo de memoria

  2. SaveAnimatedWEBP

    • Propósito: Guardar el video generado
    • Parámetros:
      • Filename Prefix: Prefijo del nombre de archivo
      • FPS: Cuadros por segundo (por defecto 24)
      • Lossless: Sin pérdida (por defecto false)
      • Quality: Calidad (0-100, por defecto 80)
      • Filter Type: Tipo de filtro (por defecto default)

5. Sugerencias de optimización de parámetros

5.1 Optimización de memoria

Si encuentras problemas de memoria insuficiente:

  1. Selecciona el tipo de peso fp8 en UNETLoader
  2. Reduce los parámetros tile_size y overlap en VAEDecodeTiled
  3. Usa resoluciones y número de frames más bajos

5.2 Optimización de calidad de generación

  1. Optimización de indicaciones

    [Descripción del sujeto], [Descripción de la acción], [Descripción de la escena], [Descripción del estilo], [Requisitos de calidad]

    Ejemplo:

    anime style anime girl with massive fennec ears and one big fluffy tail, she has blonde hair long hair blue eyes wearing a pink sweater and a long blue skirt walking in a beautiful outdoor scenery with snow mountains in the background
  2. Ajuste de parámetros

    • Aumentar los pasos de muestreo (Steps) mejora la calidad
    • Aumentar moderadamente Guidance Scale mejora la adherencia al texto
    • Ajustar FPS y parámetros de calidad según necesidad

6. Problemas comunes

  1. Memoria insuficiente

    • Consulta las sugerencias de optimización de memoria
    • Cierra otros programas que consuman memoria
    • Usa configuraciones de resolución más bajas
  2. Generación lenta

    • Es normal, la generación de video requiere tiempo
    • Reduce los pasos de muestreo y número de frames
    • Usa resoluciones más bajas para aumentar la velocidad
  3. Problemas de calidad

    • Optimiza las descripciones de texto
    • Aumenta los pasos de muestreo
    • Ajusta Guidance Scale
    • Prueba diferentes muestreadores

Enlaces de referencia