Tencent publica el modelo de avatar digital por voz HunyuanVideo-Avatar
El equipo Hunyuan de Tencent ha publicado recientemente el modelo de avatar digital por voz HunyuanVideo-Avatar. Este modelo puede generar automáticamente videos digitales naturales y fluidos a partir de una sola imagen de una persona y un clip de audio, haciendo que el personaje de la imagen hable o cante. Ya sea para la creación de videos cortos, publicidad en comercio electrónico o presentadores virtuales, HunyuanVideo-Avatar ofrece una experiencia conveniente para creadores de contenido y empresas.
Demostraciones en video
- Solo femenino en varios escenarios:
- Ejemplo de diálogo en varios escenarios:
- Demostración de personajes de varios estilos:
Características principales
- Generación de video dinámico con una imagen y audio: Solo necesitas subir una imagen de una persona y un audio. El modelo entiende automáticamente el contenido y genera videos naturales de habla o canto, incluyendo expresiones faciales, sincronización labial y movimientos corporales completos.
- Alta fidelidad y dinamismo: Permite crear videos digitales de alta calidad y ricos en movimiento, abarcando cabeza, medio cuerpo y cuerpo completo.
- Soporte para múltiples estilos, especies y escenas de dos personas: No solo admite humanos reales, sino que también puede generar videos dinámicos en varios estilos artísticos (como anime, pintura con tinta) y diferentes especies (como robots, animales), permitiendo la interacción entre varios personajes.
- Transferencia y control de emociones: Puede extraer señales emocionales de la imagen de referencia y transferirlas al video generado, logrando un control detallado del estilo emocional.
- Consistencia de personajes: Gracias al módulo de inyección de imagen de personaje, garantiza una alta consistencia y naturalidad en los movimientos del personaje generado.
- Adaptación de audio sensible al rostro: En escenarios con varios personajes, utiliza un adaptador de audio sensible al rostro para controlar el audio de forma independiente, permitiendo diálogos entre varios personajes.
Escenarios de aplicación
- Transmisión en vivo de comercio electrónico: Presentadores digitales presentan productos y mejoran la experiencia interactiva.
- Streaming en línea: Creación de contenido para presentadores virtuales e ídolos virtuales.
- Videos para redes sociales: Personas y creadores pueden crear fácilmente videos cortos digitales atractivos.
- Creación y edición de contenido: Herramientas para generar videos dinámicos en áreas como anime y videojuegos.
- Activación del patrimonio cultural: Da vida a figuras históricas y artefactos como avatares digitales.
Enlaces relacionados
- Página principal del proyecto
- Código fuente en GitHub
- Página del modelo en HuggingFace
- Informe técnico (arXiv)