Skip to content
NoticiasTencent lanza HunyuanVideo - Un nuevo modelo de código abierto para la generación de vídeos

Tencent lanza el modelo HunyuanVideo de código abierto

Tencent ha lanzado oficialmente HunyuanVideo, actualmente el modelo de generación de vídeo más grande de la industria. Con 13 mil millones de parámetros, el modelo logra un rendimiento líder en múltiples aspectos, incluyendo calidad de vídeo y estabilidad de movimiento, y ahora está completamente disponible como código abierto en las plataformas GitHub y Hugging Face.

Características principales del modelo

Arquitectura unificada de generación de imágenes y vídeos

  • Emplea un diseño de modelo híbrido “dual-stream to single-stream”
  • Utiliza arquitectura Transformer con mecanismo de atención completa
  • Soporta la generación unificada de imágenes y vídeos

Características técnicas avanzadas

  • Utiliza un modelo de lenguaje multimodal (MLLM) como codificador de texto
  • Implementa VAE 3D para compresión espacio-temporal
  • Reescritura de prompts incorporada con modos Normal y Master
  • Soporta generación de vídeo en alta resolución hasta 720p

Ventajas únicas

  • Excelente rendimiento con contenido de estilo chino, incluyendo temas tradicionales y modernos
  • Soporta transiciones de escena a través de prompts manteniendo la consistencia de ID
  • Mantiene física estable en escenas de movimiento intenso
  • Las evaluaciones profesionales muestran un rendimiento superior en alineación de texto, calidad de movimiento y calidad visual

Requisitos de hardware

  • Mínimo: 45GB VRAM GPU (resolución 544x960)
  • Recomendado: 60GB VRAM GPU (resolución 720x1280)
  • Compatible con GPUs H800/H20 y otros

Recursos de código abierto

El modelo está disponible en:

Experiencia en línea

Los usuarios pueden experimentar HunyuanVideo a través de:

Tecnologías complementarias

Además del modelo principal de generación de vídeo, Tencent ha lanzado una serie de tecnologías complementarias:

  1. Tecnología de generación conjunta de voz e imagen

    • Soporta generación de vídeo con habla facial y acciones
    • Permite control preciso del movimiento corporal completo
  2. Comprensión de contenido de vídeo y narración

    • Reconocimiento inteligente del contenido del vídeo
    • Genera narraciones coincidentes basadas en prompts
  3. Transferencia de expresiones faciales

    • Sincronización labial precisa
    • Efectos naturales de transferencia de expresiones

Perspectivas futuras

El lanzamiento de código abierto de HunyuanVideo no solo marca un avance significativo en la tecnología de generación de vídeo, sino que también trae nuevas posibilidades a todo el campo de la generación de vídeo por IA. Al abrir el código fuente y los pesos pre-entrenados, Tencent espera impulsar el desarrollo de todo el ecosistema de generación de vídeo.

Con la optimización continua del modelo y los esfuerzos de la comunidad, podemos esperar que la tecnología de generación de vídeo por IA desempeñe un papel cada vez más importante en la expresión creativa y la producción de contenido en un futuro próximo.

Recursos relacionados