Aucun article pour le moment. Revenez plus tard !

StepFun open source Step-Video-T2V : publication d’un modèle vidéo généré par texte de 30 milliards de paramètres

StepFun a officiellement ouvert son dernier modèle vidéo généré par texte, Step-Video-T2V, le 17 février 2025. Ce modèle possède 30 milliards de paramètres et peut générer des vidéos de haute qualité pouvant aller jusqu’à 204 images. C’est l’un des modèles vidéo générés par texte avec le plus de paramètres dans la communauté open source.

Caractéristiques du modèle

Paramètres à grande échelle : possède 30 milliards de paramètres, prend en charge la génération de vidéos allant jusqu’à 204 images
Taux de compression élevé : utilise la technologie VAE de compression profonde, réalisant une compression spatiale de 16x16 et un rapport de compression temporelle de 8x
Support multilingue : encodeur de texte intégré en chinois et en anglais, prenant parfaitement en charge les mots-clés en chinois
Licence open source : open source sous la licence MIT, supporte les usages commerciaux
Technologie d’optimisation : utilise la technologie d’optimisation de préférence directe (DPO) pour améliorer la qualité de génération vidéo

Exigences matérielles

Il est recommandé d’utiliser un GPU avec 80 Go de mémoire vidéo pour exécuter le modèle afin d’obtenir les meilleurs résultats de génération. Les exigences matérielles spécifiques sont les suivantes :

Génération de vidéo 544px992px204 images : nécessite 77,64 Go de mémoire vidéo
Génération de vidéo 544px992px136 images : nécessite 72,48 Go de mémoire vidéo

Expérience en ligne

Actuellement, Step-Video-T2V est disponible sur la plateforme vidéo Yuewen pour une expérience publique. La plateforme prend en charge la génération de vidéos fluides de 8 secondes, mais il peut y avoir une file d’attente.

Adresse open source

Téléchargement du modèle : Hugging Face
Rapport technique : arXiv:2502.10248

L’équipe de StepFun a déclaré que le code de ce modèle sera intégré à la bibliothèque Diffusers officielle de Hugging Face, et qu’elle continuera à optimiser les performances et l’expérience utilisateur du modèle à l’avenir. Pour les utilisateurs souhaitant déployer localement, l’équipe fournit également une documentation détaillée sur l’installation et l’utilisation.

RunComfy

Comfy Deploy

Comfy Online

Comfy.ICU

InstaSD

StepFun open source Step-Video-T2V : publication d’un modèle vidéo généré par texte de 30 milliards de paramètres

Caractéristiques du modèle

Exigences matérielles

Expérience en ligne

Adresse open source