PUSA V1.0: Modelo de generación de video de alto rendimiento y bajo costo lanzado

El 16 de julio de 2025, se lanzó oficialmente PUSA V1.0. Basado en el último Wan2.1-T2V-14B, este modelo introduce la tecnología de Adaptación de Pasos de Tiempo Vectorizados (VTA), requiriendo solo 1/2500 del conjunto de datos original, 1/200 del costo de entrenamiento y 1/5 de los pasos de inferencia, superando aún así el rendimiento de Wan-I2V-14B.

¿Qué es PUSA V1.0?

PUSA V1.0 es un modelo de IA de código abierto para la generación de videos, que presenta la nueva tecnología de Adaptación de Pasos de Tiempo Vectorizados (VTA). A diferencia de los modelos tradicionales de difusión de video que utilizan un solo paso de tiempo, PUSA permite un control de ruido más detallado para cada fotograma, resultando en una mayor calidad de generación y capacidades multitarea más ricas.

Características clave e innovaciones

Adaptación de Pasos de Tiempo Vectorizados (VTA): Rompe la limitación de los pasos de tiempo escalares, permitiendo un control flexible a nivel de fotograma.
Altamente eficiente: Utiliza solo 3,860 muestras de video, aproximadamente $500 en costos de entrenamiento y significativamente menos pasos de inferencia.
Soporte multitarea: Admite imagen a video (I2V), generación de fotogramas clave, completado de video, extensión de video, texto a video (T2V), transiciones de video y más.
Ajuste fino no destructivo: Agrega nuevas características a través del ajuste fino LoRA mientras mantiene todas las capacidades del modelo original, asegurando una fuerte compatibilidad.
Código abierto: Los pesos del modelo, datos de entrenamiento, inferencia y código de entrenamiento están completamente abiertos para la investigación y aplicación comunitaria e industrial.

Comparación con Wan-I2V

PUSA V1.0 supera a Wan-I2V-14B en rendimiento con muchos menos recursos y datos de entrenamiento. Wan-I2V solo admite imagen a video, mientras que PUSA V1.0 unifica múltiples tareas y obtiene una puntuación más alta en la evaluación VBench-I2V (87.32% vs 86.86%).

Escenarios de aplicación

Generación creativa de video con IA: Genera rápidamente videos cortos de alta calidad a partir de una imagen o texto.
Completado y extensión de video: Completa o extiende videos existentes, incluyendo completado de fotogramas clave.
Interpolación de fotogramas clave múltiples: Genera transiciones suaves de video a partir de múltiples fotogramas clave.
Educación, entretenimiento, publicidad: Proporciona herramientas eficientes de generación de video para creadores, educadores y anunciantes.

Demos visuales

A continuación se muestran algunos ejemplos animados de PUSA V0.5. V1.0 mejora aún más las capacidades multitarea y la calidad de generación:

El lanzamiento de PUSA V1.0 hace que la tecnología de generación de video sea más accesible y eficiente. Su innovador método VTA no solo mejora la calidad sino que también reduce enormemente la barrera para el desarrollo y la aplicación.