PUSA V1.0 : Un modèle de génération vidéo haute performance à faible coût

Le 16 juillet 2025, PUSA V1.0 a été officiellement lancé. Basé sur le dernier Wan2.1-T2V-14B, ce modèle introduit la technologie d'Adaptation des Pas de Temps Vectorisés (VTA), nécessitant seulement 1/2500 du jeu de données original, 1/200 du coût d'entraînement et 1/5 des étapes d'inférence, tout en surpassant les performances de Wan-I2V-14B.

Qu'est-ce que PUSA V1.0 ?

PUSA V1.0 est un modèle d'IA open source pour la génération de vidéos, doté de la nouvelle technologie d'Adaptation des Pas de Temps Vectorisés (VTA). Contrairement aux modèles traditionnels de diffusion vidéo qui utilisent un seul pas de temps, PUSA permet un contrôle plus détaillé du bruit pour chaque image, aboutissant à une meilleure qualité de génération et des capacités multi-tâches plus riches.

Caractéristiques clés et innovations

Adaptation des Pas de Temps Vectorisés (VTA) : Brise la limitation des pas de temps scalaires, permettant un contrôle flexible au niveau des images.
Haute efficacité : Utilise seulement 3 860 échantillons vidéo, environ 500 $ de coûts d'entraînement et significativement moins d'étapes d'inférence.
Support multi-tâches : Prend en charge l'image vers vidéo (I2V), la génération d'images clés, la complétion vidéo, l'extension vidéo, le texte vers vidéo (T2V), les transitions vidéo et plus encore.
Ajustement fin non destructif : Ajoute de nouvelles fonctionnalités via l'ajustement fin LoRA tout en conservant toutes les capacités du modèle original, assurant une forte compatibilité.
Open Source : Les poids du modèle, les données d'entraînement, l'inférence et le code d'entraînement sont entièrement ouverts pour la recherche et l'application communautaire et industrielle.

Comparaison avec Wan-I2V

PUSA V1.0 surpasse Wan-I2V-14B en performance avec beaucoup moins de ressources et de données d'entraînement. Wan-I2V ne prend en charge que l'image vers vidéo, tandis que PUSA V1.0 unifie plusieurs tâches et obtient un score plus élevé dans l'évaluation VBench-I2V (87,32 % contre 86,86 %).

Scénarios d'application

Génération créative de vidéos par IA : Génère rapidement des vidéos courtes de haute qualité à partir d'une image ou d'un texte.
Complétion et extension vidéo : Complète ou étend des vidéos existantes, y compris la complétion d'images clés.
Interpolation d'images clés multiples : Génère des transitions vidéo fluides à partir de plusieurs images clés.
Éducation, divertissement, publicité : Fournit des outils efficaces de génération vidéo pour les créateurs, éducateurs et publicitaires.

Démonstrations visuelles

Voici quelques exemples animés de PUSA V0.5. V1.0 améliore encore les capacités multi-tâches et la qualité de génération :

Le lancement de PUSA V1.0 rend la technologie de génération vidéo plus accessible et efficace. Sa méthode VTA innovante améliore non seulement la qualité mais abaisse aussi considérablement la barrière pour le développement et l'application.