TurboDiffusion Lance un Framework d’Accélération pour la Génération de Vidéo
L’équipe d’apprentissage automatique de l’Université Tsinghua a récemment publié en open source TurboDiffusion, un framework d’accélération pour la génération de vidéo qui améliore significativement la vitesse de génération des modèles de diffusion vidéo tout en maintenant la qualité vidéo.
Performance d’Accélération
Selon les tests officiels, TurboDiffusion atteint une accélération de 100 à 205 fois pour la génération de diffusion de bout en bout sur une seule carte graphique RTX 5090.
Performance d’Accélération du Modèle 1.3B
Sur le modèle Wan2.1 de 1.3B paramètres, la performance de TurboDiffusion est particulièrement remarquable :
- Modèle original : Temps de génération de bout en bout d’environ 166 secondes
- TurboDiffusion : Seulement 1.8 seconde nécessaire, atteignant environ 92x d’accélération
Cela signifie que la génération vidéo qui prenait originalement près de 3 minutes peut maintenant être complétée en moins de 2 secondes.
Performance d’Accélération du Modèle 14B (Résolution 480p)
Pour les modèles plus grands de 14B paramètres, l’effet d’accélération est également significatif :
- Modèle original : Temps de génération de bout en bout d’environ 1635 secondes (plus de 27 minutes)
- FastVideo : Environ 23.2 secondes
- TurboDiffusion : Seulement 9.4 secondes nécessaires, atteignant environ 174x d’accélération par rapport au modèle original
Comparé à d’autres solutions d’accélération, TurboDiffusion maintient un avantage de vitesse clair, étant environ 2.5 fois plus rapide que FastVideo.
Préservation de la Qualité Vidéo
Important, malgré l’augmentation dramatique de la vitesse de génération, TurboDiffusion maintient une qualité vidéo proche du modèle original. Les démonstrations de comparaison officielles montrent que les vidéos accélérées maintiennent la cohérence avec les vidéos générées originalement en termes de détails d’image, fluidité de mouvement et qualité globale.
Caractéristiques Techniques
TurboDiffusion emploie plusieurs techniques d’optimisation pour atteindre l’accélération, incluant le mécanisme d’Attention Linéaire Sparse (SLA) et la technologie de quantification SageAttention. Ces techniques peuvent réduire significativement la charge computationnelle sans affecter notablement la qualité vidéo, améliorant ainsi la vitesse de génération.
Le framework supporte l’entraînement et l’inférence basés sur le modèle Wan2.1 et fournit du code d’entraînement complet et un support d’infrastructure, incluant FSDP2, Ulysses CP et les points de contrôle d’activation sélectifs.
Scénarios d’Application
Ce framework vise principalement les scénarios d’application nécessitant une génération vidéo rapide, aidant les utilisateurs à réduire significativement le temps de génération vidéo et améliorer l’efficacité du travail.
Dans les applications pratiques, TurboDiffusion peut significativement améliorer l’expérience utilisateur dans les scénarios suivants :
- Aperçu créatif : Générer rapidement plusieurs versions pour la comparaison et sélection créative
- Retour en temps réel : Obtenir un retour visuel quasi en temps réel lors de l’ajustement des paramètres
- Génération par lots : Générer plus de contenu vidéo dans le même temps
- Environnements à ressources limitées : Atteindre une génération vidéo efficace même sur des dispositifs à carte unique
De plus, le framework maintient une qualité vidéo proche du modèle original, le rendant adapté aux utilisateurs qui exigent une haute qualité de génération.
Informations Open Source
TurboDiffusion est publié en open source sous la licence Apache-2.0, avec le code et la documentation disponibles publiquement sur GitHub. L’équipe de développement déclare qu’elle développe activement plus de fonctionnalités, incluant l’optimisation du calcul parallèle, l’intégration de vLLM-Omni et le support de plus de modèles de génération vidéo.
Voir les Effets de Démonstration
TurboDiffusion fournit plusieurs démonstrations de comparaison de cas de génération réels dans le dépôt GitHub, incluant des résultats de test pour différents scénarios et différentes échelles de modèles. Ces démonstrations montrent intuitivement les comparaisons de temps avant et après l’accélération et les comparaisons de qualité vidéo. Les utilisateurs peuvent voir les effets de démonstration complets sur la page d’accueil du projet.
Liens Connexes
- Dépôt GitHub : https://github.com/thu-ml/TurboDiffusion
- Vidéo de Démonstration : https://github.com/thu-ml/TurboDiffusion#turbodiffusion
- Article : TurboDiffusion: Accelerating Video Diffusion Models by 100—205 Times