Skip to content
Ayuda a Construir una Mejor Base de Conocimientos de ComfyUI Conviértete en Patrocinador
NoticiasTencent lanza HunyuanCustom, un sistema de generación de video multimodal

Tencent lanza HunyuanCustom, un sistema de generación de video multimodal

Tencent ha presentado recientemente una innovadora tecnología de generación de videos—HunyuanCustom, un marco de personalización de video multimodal capaz de mantener la consistencia del sujeto mientras admite diversas condiciones de entrada que incluyen texto, imágenes, audio y video. La tecnología ha sido liberada como código abierto junto con los modelos y código relevantes, abriendo nuevas posibilidades para la creación de contenido de video.

Arquitectura general de HunyuanCustom

Innovación técnica

Construido sobre el marco de generación de video Hunyuan, HunyuanCustom se enfoca en abordar dos grandes desafíos en la tecnología actual de generación de videos: la consistencia de identidad y las modalidades de entrada limitadas. La tecnología introduce varias innovaciones clave:

  1. Módulo de Fusión Texto-Imagen: Basado en la tecnología LLaVA, mejorando las capacidades de comprensión multimodal
  2. Módulo de Mejora de ID de Imagen: Aprovechando la concatenación temporal para reforzar las características de identidad a través de los fotogramas
  3. Mecanismos de Inyección de Condiciones Específicas por Modalidad:
    • Módulo AudioNet: Logrando alineación jerárquica a través de atención cruzada espacial
    • Módulo de Inyección Dirigida por Video: Integrando video condicional a través de una red de alineación de características basada en parches

Estas innovaciones técnicas permiten que HunyuanCustom supere significativamente a los métodos existentes de código abierto y cerrado en términos de consistencia de identidad, realismo y alineación texto-video.

Capacidades de personalización de video multimodal

HunyuanCustom admite varias formas de entrada, incluyendo específicamente:

  • Entrada de Texto e Imagen: Puede manejar entradas de una o múltiples imágenes para permitir la generación de video personalizado para uno o más sujetos
  • Entrada de Audio: Puede incorporar entrada de audio adicional para hacer que el sujeto pronuncie el contenido de audio correspondiente
  • Entrada de Video: Admite entrada de video, permitiendo el reemplazo de objetos específicos en el video con sujetos de una imagen dada

Capacidades multimodales de HunyuanCustom

Escenarios de aplicación

Las capacidades multimodales de HunyuanCustom admiten varias tareas derivadas:

  • Anuncios de Humanos Virtuales: Creación de videos de presentación de productos ingresando múltiples imágenes
  • Prueba Virtual de Ropa: Generación de videos de personas usando ropa específica
  • Avatares Cantantes: Creación de personajes virtuales que cantan combinando imagen y audio
  • Edición de Video: Uso de imagen y video como entradas para reemplazar sujetos en videos

Escenarios de aplicación de HunyuanCustom

Comparación de rendimiento

HunyuanCustom se comparó con métodos de personalización de video de última generación, incluyendo VACE, Skyreels, Pika, Vidu, Keling y Hailuo. La evaluación se centró en la consistencia facial/del sujeto, la alineación video-texto y la calidad general del video.

En términos de métricas clave, HunyuanCustom demostró ventajas significativas:

  • Similitud Facial (Face-Sim): 0.627 (Clasificado 1°)
  • Similitud DINO: 0.593 (Clasificado 1°)
  • Consistencia Temporal: 0.958 (Cercano al mejor)

Plan de código abierto

Tencent lanzó el código de inferencia y los pesos del modelo de HunyuanCustom el 8 de mayo de 2025. Según el plan de código abierto, el equipo lanzará progresivamente:

  • Personalización de Video de Sujeto Único
    • Código de inferencia (ya lanzado)
    • Puntos de control del modelo (ya lanzados)
    • Plugin para ComfyUI
  • Personalización de Video Impulsada por Audio
  • Personalización de Video Impulsada por Video
  • Personalización de Video Multi-Sujeto

Requisitos del sistema

Los requisitos del sistema para generar videos con el modelo HunyuanCustom son los siguientes:

ModeloConfiguración (alto/ancho/fotogramas)Memoria Pico GPU
HunyuanCustom720px1280px129f80GB
HunyuanCustom512px896px129f60GB
  • Requisito mínimo: Se necesitan al menos 24GB de VRAM para generar videos de 720p (pero muy lento)
  • Configuración recomendada: Se recomienda una GPU con 80GB de memoria para una mejor calidad de generación

Enlaces relacionados