FramePack : Rendre la génération vidéo aussi efficace que la génération d’images
Lvmin Zhang et Maneesh Agrawala ont récemment publié FramePack, une technologie de génération vidéo qui offre une nouvelle solution pour les modèles de prédiction d’images suivantes. FramePack utilise des méthodes innovantes de compression d’images d’entrée pour rendre la charge de travail de génération vidéo invariante à la longueur de la vidéo, permettant aux utilisateurs de générer des vidéos de haute qualité et de longue durée sur du matériel grand public.
Caractéristiques techniques principales
L’avantage principal de FramePack réside dans sa capacité à compresser le contexte d’entrée à une longueur constante, rendant la charge de travail de génération indépendante de la longueur de la vidéo. Les caractéristiques spécifiques comprennent :
- Traitement de nombreuses images avec des modèles de 13 milliards de paramètres même sur des GPU d’ordinateurs portables avec seulement 6 Go de VRAM
- Entraînement avec des tailles de lot similaires à celles utilisées dans l’entraînement de diffusion d’images
- Vitesses de génération de 1,5 à 2,5 secondes par image sur une RTX 4090
- Pas besoin de techniques de distillation de pas temporels
Résolution des défis clés de la génération vidéo
La génération vidéo traditionnelle fait face à deux problèmes majeurs : l’oubli (les modèles ont du mal à se souvenir du contenu antérieur) et la dérive (la qualité visuelle se dégrade à mesure que les erreurs s’accumulent au fil du temps). FramePack résout ces problèmes de deux manières :
- Mécanisme de compression d’images : Alloue différentes longueurs de contexte en fonction de l’importance de l’image, les images les plus proches de la cible de prédiction recevant plus de ressources
- Échantillonnage anti-dérive : Utilise un contexte bidirectionnel plutôt que des dépendances causales strictes pour empêcher la dégradation de la qualité au fil du temps
Démonstrations pratiques
Voici des démonstrations de FramePack générant des vidéos à partir d’images uniques :
Exemple 1 : Génération de mouvements de danse

Image d’entrée
Vidéo générée
Exemple 2 : Génération de scène dynamique

Image d’entrée
Vidéo générée
Technologie pour les utilisateurs quotidiens
La conception de FramePack offre une convivialité exceptionnelle :
- Faibles exigences matérielles : Prend en charge les GPU Nvidia des séries RTX 30XX, 40XX, 50XX avec un minimum de seulement 6 Go de VRAM
- Génération de vidéos longues : Peut générer des vidéos jusqu’à 60 secondes (30fps, 1800 images) sur des petits GPU
- Retour en temps réel : Comme il génère image par image, les utilisateurs peuvent voir la progression de la génération avant que la vidéo entière ne soit terminée
Liens connexes
FramePack rend la génération vidéo aussi simple que la génération d’images, offrant aux créateurs de contenu un outil plus pratique et efficace pour créer du contenu vidéo fluide et de haute qualité, même sur du matériel ordinaire.