Lanzamiento de InfiniteTalk de código abierto - Tecnología de generación de video impulsada por audio con soporte de longitud ilimitada

Demostración de InfiniteTalk

El equipo de MeiGen-AI ha publicado recientemente como código abierto el modelo InfiniteTalk, un proyecto innovador que permite la generación de videos impulsados por audio con soporte de longitud ilimitada. Esta tecnología no solo logra una sincronización precisa de labios, sino que también mantiene movimientos corporales y expresiones faciales estables, marcando un avance significativo en la tecnología de humanos digitales.

Características clave

InfiniteTalk emplea un marco de doblaje de video de fotogramas dispersos. En comparación con los métodos tradicionales que se centran únicamente en la sincronización labial, esta tecnología ofrece varias ventajas notables:

Sincronización precisa de labios: Coincidencia precisa de la forma de la boca con el audio
Generación de longitud ilimitada: Soporte para la generación de contenido de video ultra largo
Sincronización de movimiento corporal completo: Sincronización de cabeza, cuerpo y expresiones faciales además de los labios
Preservación estable de identidad: Mantener la consistencia de la identidad del personaje durante la generación de larga duración
Soporte multi-escenario: Compatible con conversión de imagen a video y de video a video

Funcionalidad principal

Generación de video impulsada por audio

InfiniteTalk puede generar contenido de video sincronizado con archivos de audio de entrada. Ya sea hablando o cantando, produce efectos naturales de sincronización labial.

Soporte de longitud ilimitada

Esta tecnología rompe las limitaciones de longitud de generación de video tradicionales, permitiendo teóricamente la creación de videos de cualquier longitud. Es particularmente adecuado para producir videos explicativos de humanos digitales de larga duración.

Soporte multi-resolución

El modelo soporta resoluciones de 480P y 720P, permitiendo a los usuarios elegir la calidad de salida apropiada según sus necesidades.

Arquitectura técnica

InfiniteTalk está construido sobre el modelo Wan2.1, utilizando tecnología innovadora de procesamiento de fotogramas dispersos para una generación de video eficiente. El modelo emplea un mecanismo de ventana de contexto, con un ajuste predeterminado de 81 fotogramas para la ventana de contexto, que es la tecnología clave que permite la generación infinita.

Información de código abierto

El proyecto InfiniteTalk ha sido publicado como código abierto en GitHub bajo la licencia Apache 2.0. El proyecto incluye pesos completos del modelo, implementación de código y documentación, proporcionando a investigadores y desarrolladores una solución integral.