Tencent publica el modelo de avatar digital por voz HunyuanVideo-Avatar: genera videos digitales naturales con solo una imagen y audio

El equipo Hunyuan de Tencent ha publicado recientemente el modelo de avatar digital por voz HunyuanVideo-Avatar. Este modelo puede generar automáticamente videos digitales naturales y fluidos a partir de una sola imagen de una persona y un clip de audio, haciendo que el personaje de la imagen hable o cante. Ya sea para la creación de videos cortos, publicidad en comercio electrónico o presentadores virtuales, HunyuanVideo-Avatar ofrece una experiencia conveniente para creadores de contenido y empresas.

Demostraciones en video

Solo femenino en varios escenarios:
Ejemplo de diálogo en varios escenarios:
Demostración de personajes de varios estilos:

Características principales

Generación de video dinámico con una imagen y audio: Solo necesitas subir una imagen de una persona y un audio. El modelo entiende automáticamente el contenido y genera videos naturales de habla o canto, incluyendo expresiones faciales, sincronización labial y movimientos corporales completos.
Alta fidelidad y dinamismo: Permite crear videos digitales de alta calidad y ricos en movimiento, abarcando cabeza, medio cuerpo y cuerpo completo.
Soporte para múltiples estilos, especies y escenas de dos personas: No solo admite humanos reales, sino que también puede generar videos dinámicos en varios estilos artísticos (como anime, pintura con tinta) y diferentes especies (como robots, animales), permitiendo la interacción entre varios personajes.
Transferencia y control de emociones: Puede extraer señales emocionales de la imagen de referencia y transferirlas al video generado, logrando un control detallado del estilo emocional.
Consistencia de personajes: Gracias al módulo de inyección de imagen de personaje, garantiza una alta consistencia y naturalidad en los movimientos del personaje generado.
Adaptación de audio sensible al rostro: En escenarios con varios personajes, utiliza un adaptador de audio sensible al rostro para controlar el audio de forma independiente, permitiendo diálogos entre varios personajes.

Escenarios de aplicación

Transmisión en vivo de comercio electrónico: Presentadores digitales presentan productos y mejoran la experiencia interactiva.
Streaming en línea: Creación de contenido para presentadores virtuales e ídolos virtuales.
Videos para redes sociales: Personas y creadores pueden crear fácilmente videos cortos digitales atractivos.
Creación y edición de contenido: Herramientas para generar videos dinámicos en áreas como anime y videojuegos.
Activación del patrimonio cultural: Da vida a figuras históricas y artefactos como avatares digitales.

Tencent publica el modelo de avatar digital por voz HunyuanVideo-Avatar: genera videos digitales naturales con solo una imagen y audio

Demostraciones en video

Características principales

Escenarios de aplicación

Enlaces relacionados

Comentarios