FramePack: Haciendo la generación de vídeo tan eficiente como la generación de imágenes

Lvmin Zhang y Maneesh Agrawala han lanzado recientemente FramePack, una tecnología de generación de vídeo que ofrece una nueva solución para los modelos de predicción del siguiente fotograma. FramePack utiliza métodos innovadores de compresión de fotogramas de entrada para hacer que la carga de trabajo de generación de vídeo sea invariable a la longitud del vídeo, permitiendo a los usuarios generar vídeos de alta calidad y larga duración en hardware de consumo.

Características técnicas principales

La principal ventaja de FramePack radica en su capacidad para comprimir el contexto de entrada a una longitud constante, haciendo que la carga de trabajo de generación sea independiente de la longitud del vídeo. Las características específicas incluyen:

Procesamiento de numerosos fotogramas con modelos de 13B parámetros incluso en GPUs de portátiles con solo 6GB de VRAM
Entrenamiento con tamaños de lote similares a los utilizados en el entrenamiento de difusión de imágenes
Velocidades de generación de 1,5-2,5 segundos por fotograma en una RTX 4090
No necesita técnicas de destilación de pasos temporales

Resolviendo los principales desafíos de la generación de vídeo

La generación tradicional de vídeo se enfrenta a dos problemas principales: el olvido (los modelos luchan por recordar el contenido anterior) y la deriva (la calidad visual se degrada a medida que los errores se acumulan con el tiempo). FramePack aborda estos problemas de dos maneras:

Mecanismo de compresión de fotogramas: Asigna diferentes longitudes de contexto según la importancia del fotograma, con los fotogramas más cercanos al objetivo de predicción recibiendo más recursos
Muestreo anti-deriva: Utiliza contexto bidireccional en lugar de dependencias causales estrictas para evitar la degradación de la calidad con el tiempo

Demostraciones prácticas

Aquí hay demostraciones de FramePack generando vídeos a partir de imágenes individuales:

Ejemplo 1: Generación de movimiento de baile

Imagen de entrada

Vídeo generado

Ejemplo 2: Generación de escena dinámica

Imagen de entrada

Vídeo generado

Tecnología para usuarios cotidianos

El diseño de FramePack ofrece una usabilidad excepcional:

Requisitos de hardware bajos: Compatible con GPUs Nvidia de las series RTX 30XX, 40XX, 50XX con un mínimo de solo 6GB de VRAM
Generación de vídeos largos: Puede generar vídeos de hasta 60 segundos (30fps, 1800 fotogramas) en GPUs pequeñas
Retroalimentación en tiempo real: Como genera fotograma a fotograma, los usuarios pueden ver el progreso de la generación antes de que se complete todo el vídeo

Enlaces relacionados

FramePack hace que la generación de vídeo sea tan simple como la generación de imágenes, proporcionando a los creadores de contenido una herramienta más conveniente y eficiente para crear contenido de vídeo fluido y de alta calidad incluso en hardware ordinario.

RunningHub

RunComfy

Comfy Deploy

Comfy Online

Comfy.ICU

InstaSD

ByteDance lanza Sa2VA: Primer modelo unificado de comprensión de imágenes y videos