FramePack: Haciendo la generación de vídeo tan eficiente como la generación de imágenes
Lvmin Zhang y Maneesh Agrawala han lanzado recientemente FramePack, una tecnología de generación de vídeo que ofrece una nueva solución para los modelos de predicción del siguiente fotograma. FramePack utiliza métodos innovadores de compresión de fotogramas de entrada para hacer que la carga de trabajo de generación de vídeo sea invariable a la longitud del vídeo, permitiendo a los usuarios generar vídeos de alta calidad y larga duración en hardware de consumo.
Características técnicas principales
La principal ventaja de FramePack radica en su capacidad para comprimir el contexto de entrada a una longitud constante, haciendo que la carga de trabajo de generación sea independiente de la longitud del vídeo. Las características específicas incluyen:
- Procesamiento de numerosos fotogramas con modelos de 13B parámetros incluso en GPUs de portátiles con solo 6GB de VRAM
- Entrenamiento con tamaños de lote similares a los utilizados en el entrenamiento de difusión de imágenes
- Velocidades de generación de 1,5-2,5 segundos por fotograma en una RTX 4090
- No necesita técnicas de destilación de pasos temporales
Resolviendo los principales desafíos de la generación de vídeo
La generación tradicional de vídeo se enfrenta a dos problemas principales: el olvido (los modelos luchan por recordar el contenido anterior) y la deriva (la calidad visual se degrada a medida que los errores se acumulan con el tiempo). FramePack aborda estos problemas de dos maneras:
- Mecanismo de compresión de fotogramas: Asigna diferentes longitudes de contexto según la importancia del fotograma, con los fotogramas más cercanos al objetivo de predicción recibiendo más recursos
- Muestreo anti-deriva: Utiliza contexto bidireccional en lugar de dependencias causales estrictas para evitar la degradación de la calidad con el tiempo
Demostraciones prácticas
Aquí hay demostraciones de FramePack generando vídeos a partir de imágenes individuales:
Ejemplo 1: Generación de movimiento de baile

Imagen de entrada
Vídeo generado
Ejemplo 2: Generación de escena dinámica

Imagen de entrada
Vídeo generado
Tecnología para usuarios cotidianos
El diseño de FramePack ofrece una usabilidad excepcional:
- Requisitos de hardware bajos: Compatible con GPUs Nvidia de las series RTX 30XX, 40XX, 50XX con un mínimo de solo 6GB de VRAM
- Generación de vídeos largos: Puede generar vídeos de hasta 60 segundos (30fps, 1800 fotogramas) en GPUs pequeñas
- Retroalimentación en tiempo real: Como genera fotograma a fotograma, los usuarios pueden ver el progreso de la generación antes de que se complete todo el vídeo
Enlaces relacionados
FramePack hace que la generación de vídeo sea tan simple como la generación de imágenes, proporcionando a los creadores de contenido una herramienta más conveniente y eficiente para crear contenido de vídeo fluido y de alta calidad incluso en hardware ordinario.