Tencent lanza HunyuanCustom, un sistema de generación de video multimodal

Tencent ha presentado recientemente una innovadora tecnología de generación de videos—HunyuanCustom, un marco de personalización de video multimodal capaz de mantener la consistencia del sujeto mientras admite diversas condiciones de entrada que incluyen texto, imágenes, audio y video. La tecnología ha sido liberada como código abierto junto con los modelos y código relevantes, abriendo nuevas posibilidades para la creación de contenido de video.

Innovación técnica

Construido sobre el marco de generación de video Hunyuan, HunyuanCustom se enfoca en abordar dos grandes desafíos en la tecnología actual de generación de videos: la consistencia de identidad y las modalidades de entrada limitadas. La tecnología introduce varias innovaciones clave:

Módulo de Fusión Texto-Imagen: Basado en la tecnología LLaVA, mejorando las capacidades de comprensión multimodal
Módulo de Mejora de ID de Imagen: Aprovechando la concatenación temporal para reforzar las características de identidad a través de los fotogramas
Mecanismos de Inyección de Condiciones Específicas por Modalidad:
- Módulo AudioNet: Logrando alineación jerárquica a través de atención cruzada espacial
- Módulo de Inyección Dirigida por Video: Integrando video condicional a través de una red de alineación de características basada en parches

Estas innovaciones técnicas permiten que HunyuanCustom supere significativamente a los métodos existentes de código abierto y cerrado en términos de consistencia de identidad, realismo y alineación texto-video.

Capacidades de personalización de video multimodal

HunyuanCustom admite varias formas de entrada, incluyendo específicamente:

Entrada de Texto e Imagen: Puede manejar entradas de una o múltiples imágenes para permitir la generación de video personalizado para uno o más sujetos
Entrada de Audio: Puede incorporar entrada de audio adicional para hacer que el sujeto pronuncie el contenido de audio correspondiente
Entrada de Video: Admite entrada de video, permitiendo el reemplazo de objetos específicos en el video con sujetos de una imagen dada

Escenarios de aplicación

Las capacidades multimodales de HunyuanCustom admiten varias tareas derivadas:

Anuncios de Humanos Virtuales: Creación de videos de presentación de productos ingresando múltiples imágenes
Prueba Virtual de Ropa: Generación de videos de personas usando ropa específica
Avatares Cantantes: Creación de personajes virtuales que cantan combinando imagen y audio
Edición de Video: Uso de imagen y video como entradas para reemplazar sujetos en videos

Escenarios de aplicación de HunyuanCustom

Comparación de rendimiento

HunyuanCustom se comparó con métodos de personalización de video de última generación, incluyendo VACE, Skyreels, Pika, Vidu, Keling y Hailuo. La evaluación se centró en la consistencia facial/del sujeto, la alineación video-texto y la calidad general del video.

En términos de métricas clave, HunyuanCustom demostró ventajas significativas:

Similitud Facial (Face-Sim): 0.627 (Clasificado 1°)
Similitud DINO: 0.593 (Clasificado 1°)
Consistencia Temporal: 0.958 (Cercano al mejor)

Plan de código abierto

Tencent lanzó el código de inferencia y los pesos del modelo de HunyuanCustom el 8 de mayo de 2025. Según el plan de código abierto, el equipo lanzará progresivamente:

Personalización de Video de Sujeto Único
- Código de inferencia (ya lanzado)
- Puntos de control del modelo (ya lanzados)
- Plugin para ComfyUI
Personalización de Video Impulsada por Audio
Personalización de Video Impulsada por Video
Personalización de Video Multi-Sujeto

Requisitos del sistema

Los requisitos del sistema para generar videos con el modelo HunyuanCustom son los siguientes:

Requisito mínimo: Se necesitan al menos 24GB de VRAM para generar videos de 720p (pero muy lento)
Configuración recomendada: Se recomienda una GPU con 80GB de memoria para una mejor calidad de generación