Guía y ejemplos del flujo de trabajo de HunyuanVideo texto a vídeo
Este tutorial explicará en detalle cómo generar vídeos a partir de texto usando el modelo HunyuanVideo de Tencent en ComfyUI. Te guiaremos paso a paso a través de todo el proceso, comenzando con la configuración del entorno.
1. Requisitos de hardware
Antes de comenzar, asegúrate de que tu equipo cumpla con los siguientes requisitos mínimos:
- GPU: Tarjeta NVIDIA compatible con CUDA
- Requisito mínimo: 60GB VRAM (para generar vídeos de 720p×1280p×129 frames)
- Configuración recomendada: 80GB VRAM (para mejor calidad de generación)
- Configuración mínima utilizable: 45GB VRAM (para generar vídeos de 544p×960p×129 frames)
- Sistema operativo: Linux (entorno de prueba oficial)
- Versión CUDA: Se recomienda CUDA 11.8 o 12.0+
Especificaciones de hardware de: https://huggingface.co/tencent/HunyuanVideo
1. Instalar y actualizar ComfyUI a la última versión
Si aún no has instalado ComfyUI, consulta las siguientes secciones para completar la instalación:
Tutorial de instalación de ComfyUI Cómo actualizar ComfyUI
Es necesario instalar y actualizar ComfyUI a la última versión para tener acceso al nodo ‘EmptyHunyuanLatentVideo’
2. Descarga e instalación del modelo
HunyuanVideo requiere la descarga de los siguientes archivos de modelo:
2.1 Archivo del modelo principal
Descarga los siguientes archivos desde la página de descarga del modelo principal de HunyuanVideo:
Nombre del archivo | Tamaño | Directorio de destino |
---|---|---|
hunyuan_video_t2v_720p_bf16.safetensors | ~25.6GB | ComfyUI/models/diffusion_models |
2.2 Archivos del codificador de texto
Descarga los siguientes archivos desde la página de descarga del codificador de texto de HunyuanVideo:
Nombre del archivo | Tamaño | Directorio de destino |
---|---|---|
clip_l.safetensors | ~246MB | ComfyUI/models/text_encoders |
llava_llama3_fp8_scaled.safetensors | ~9.09GB | ComfyUI/models/text_encoders |
2.3 Archivo del modelo VAE
Descarga los siguientes archivos desde la página de descarga del VAE de HunyuanVideo:
Nombre del archivo | Tamaño | Directorio de destino |
---|---|---|
hunyuan_video_vae_bf16.safetensors | ~493MB | ComfyUI/models/vae |
Estructura de referencia del directorio de modelos
ComfyUI/
├── models/
│ ├── diffusion_models/
│ │ └── hunyuan_video_t2v_720p_bf16.safetensors # Archivo del modelo principal
│ ├── text_encoders/
│ │ ├── clip_l.safetensors # Codificador de texto CLIP
│ │ └── llava_llama3_fp8_scaled.safetensors # Codificador de texto LLaVA
│ └── vae/
│ └── hunyuan_video_vae_bf16.safetensors # Archivo del modelo VAE
3. Descarga del archivo de flujo de trabajo
Fuente del archivo de flujo de trabajo: Descarga del flujo de trabajo de HunyuanVideo
Flujo de trabajo básico de generación de video
HunyuanVideo admite las siguientes configuraciones de resolución:
Resolución | Relación 9:16 | Relación 16:9 | Relación 4:3 | Relación 3:4 | Relación 1:1 |
---|---|---|---|---|---|
540p | 544×960×129f | 960×544×129f | 624×832×129f | 832×624×129f | 720×720×129f |
720p (recomendado) | 720×1280×129f | 1280×720×129f | 1104×832×129f | 832×1104×129f | 960×960×129f |
4. Explicación de los nodos del flujo de trabajo
4.1 Nodos de carga de modelos
-
UNETLoader
- Propósito: Cargar el archivo del modelo principal
- Parámetros:
- Model:
hunyuan_video_t2v_720p_bf16.safetensors
- Weight Type:
default
(seleccionar tipo fp8 si hay memoria insuficiente)
- Model:
-
DualCLIPLoader
- Propósito: Cargar modelos de codificador de texto
- Parámetros:
- CLIP 1:
clip_l.safetensors
- CLIP 2:
llava_llama3_fp8_scaled.safetensors
- Text Encoder:
hunyuan_video
- CLIP 1:
-
VAELoader
- Propósito: Cargar modelo VAE
- Parámetros:
- VAE Model:
hunyuan_video_vae_bf16.safetensors
- VAE Model:
4.2 Nodos clave de generación de video
-
EmptyHunyuanLatentVideo
- Propósito: Crear espacio latente de video
- Parámetros:
- Width: Ancho del video (ej. 848)
- Height: Alto del video (ej. 480)
- Frame Count: Número de frames (ej. 73)
- Batch Size: Tamaño del lote (por defecto 1)
-
CLIPTextEncode
- Propósito: Codificación de texto indicativo
- Parámetros:
- Text: Indicaciones positivas (describe lo que quieres generar)
- Se recomienda usar descripciones detalladas en inglés
-
FluxGuidance
- Propósito: Controlar la intensidad de la guía de generación
- Parámetros:
- Guidance Scale: Intensidad de guía (por defecto 6.0)
- Valores más altos producen resultados más cercanos al texto, pero pueden afectar la calidad del video
-
KSamplerSelect
- Propósito: Seleccionar el muestreador
- Parámetros:
- Sampler: Método de muestreo (por defecto
euler
) - Otras opciones:
euler_ancestral
,dpm++_2m
, etc.
- Sampler: Método de muestreo (por defecto
-
BasicScheduler
- Propósito: Configurar el programador de muestreo
- Parámetros:
- Scheduler: Método de programación (por defecto
simple
) - Steps: Pasos de muestreo (recomendado 20-30)
- Denoise: Intensidad de eliminación de ruido (por defecto 1.0)
- Scheduler: Método de programación (por defecto
4.3 Nodos de decodificación y guardado de video
-
VAEDecodeTiled
- Propósito: Decodificar video del espacio latente a video real
- Parámetros:
- Tile Size: 256 (reducir si hay memoria insuficiente)
- Overlap: 64 (reducir si hay memoria insuficiente)
Nota: Preferir VAEDecodeTiled sobre VAEDecode por su menor consumo de memoria
-
SaveAnimatedWEBP
- Propósito: Guardar el video generado
- Parámetros:
- Filename Prefix: Prefijo del nombre de archivo
- FPS: Cuadros por segundo (por defecto 24)
- Lossless: Sin pérdida (por defecto false)
- Quality: Calidad (0-100, por defecto 80)
- Filter Type: Tipo de filtro (por defecto
default
)
5. Sugerencias de optimización de parámetros
5.1 Optimización de memoria
Si encuentras problemas de memoria insuficiente:
- Selecciona el tipo de peso fp8 en UNETLoader
- Reduce los parámetros tile_size y overlap en VAEDecodeTiled
- Usa resoluciones y número de frames más bajos
5.2 Optimización de calidad de generación
-
Optimización de indicaciones
[Descripción del sujeto], [Descripción de la acción], [Descripción de la escena], [Descripción del estilo], [Requisitos de calidad]
Ejemplo:
anime style anime girl with massive fennec ears and one big fluffy tail, she has blonde hair long hair blue eyes wearing a pink sweater and a long blue skirt walking in a beautiful outdoor scenery with snow mountains in the background
-
Ajuste de parámetros
- Aumentar los pasos de muestreo (Steps) mejora la calidad
- Aumentar moderadamente Guidance Scale mejora la adherencia al texto
- Ajustar FPS y parámetros de calidad según necesidad
6. Problemas comunes
-
Memoria insuficiente
- Consulta las sugerencias de optimización de memoria
- Cierra otros programas que consuman memoria
- Usa configuraciones de resolución más bajas
-
Generación lenta
- Es normal, la generación de video requiere tiempo
- Reduce los pasos de muestreo y número de frames
- Usa resoluciones más bajas para aumentar la velocidad
-
Problemas de calidad
- Optimiza las descripciones de texto
- Aumenta los pasos de muestreo
- Ajusta Guidance Scale
- Prueba diferentes muestreadores
Enlaces de referencia
- Ejemplos de HunyuanVideo en ComfyUI
- Descarga del modelo HunyuanVideo
- Documentación oficial de ComfyUI