Tencent lanza el modelo HunyuanVideo de código abierto

Tencent ha lanzado oficialmente HunyuanVideo, actualmente el modelo de generación de vídeo más grande de la industria. Con 13 mil millones de parámetros, el modelo logra un rendimiento líder en múltiples aspectos, incluyendo calidad de vídeo y estabilidad de movimiento, y ahora está completamente disponible como código abierto en las plataformas GitHub y Hugging Face.

Características principales del modelo

Arquitectura unificada de generación de imágenes y vídeos

Emplea un diseño de modelo híbrido “dual-stream to single-stream”
Utiliza arquitectura Transformer con mecanismo de atención completa
Soporta la generación unificada de imágenes y vídeos

Características técnicas avanzadas

Utiliza un modelo de lenguaje multimodal (MLLM) como codificador de texto
Implementa VAE 3D para compresión espacio-temporal
Reescritura de prompts incorporada con modos Normal y Master
Soporta generación de vídeo en alta resolución hasta 720p

Ventajas únicas

Excelente rendimiento con contenido de estilo chino, incluyendo temas tradicionales y modernos
Soporta transiciones de escena a través de prompts manteniendo la consistencia de ID
Mantiene física estable en escenas de movimiento intenso
Las evaluaciones profesionales muestran un rendimiento superior en alineación de texto, calidad de movimiento y calidad visual

Requisitos de hardware

Mínimo: 45GB VRAM GPU (resolución 544x960)
Recomendado: 60GB VRAM GPU (resolución 720x1280)
Compatible con GPUs H800/H20 y otros

Recursos de código abierto

El modelo está disponible en:

Repositorio GitHub: Tencent/HunyuanVideo
Modelo en Hugging Face: tencent/HunyuanVideo

Experiencia en línea

Los usuarios pueden experimentar HunyuanVideo a través de:

Sitio web oficial: Plataforma de generación de vídeo Hunyuan
Sección de AI Video en la APP Tencent Yuanbao

Tecnologías complementarias

Además del modelo principal de generación de vídeo, Tencent ha lanzado una serie de tecnologías complementarias:

Tecnología de generación conjunta de voz e imagen
- Soporta generación de vídeo con habla facial y acciones
- Permite control preciso del movimiento corporal completo
Comprensión de contenido de vídeo y narración
- Reconocimiento inteligente del contenido del vídeo
- Genera narraciones coincidentes basadas en prompts
Transferencia de expresiones faciales
- Sincronización labial precisa
- Efectos naturales de transferencia de expresiones

Perspectivas futuras

El lanzamiento de código abierto de HunyuanVideo no solo marca un avance significativo en la tecnología de generación de vídeo, sino que también trae nuevas posibilidades a todo el campo de la generación de vídeo por IA. Al abrir el código fuente y los pesos pre-entrenados, Tencent espera impulsar el desarrollo de todo el ecosistema de generación de vídeo.

Con la optimización continua del modelo y los esfuerzos de la comunidad, podemos esperar que la tecnología de generación de vídeo por IA desempeñe un papel cada vez más importante en la expresión creativa y la producción de contenido en un futuro próximo.

Recursos relacionados

Documentación y ejemplos oficiales: Documentación GitHub
Plataforma de demo en línea: Plataforma de generación de vídeo Hunyuan
Comunidad técnica: GitHub Issues