Le modèle de génération de vidéos Wan2.1 d’Alibaba officiellement ouvert
Le 25 février 2025, Alibaba a annoncé que son modèle de génération de vidéos le plus récent, Wan2.1, a été officiellement ouvert, marquant un jalon important. Ce modèle ne dépasse pas uniquement les modèles open-source existants en termes de performance, mais réduit également considérablement le seuil d’entrée avec sa version légère nécessitant seulement 8 Go de mémoire vidéo.
Points forts
Wan2.1 a réalisé des percées technologiques significatives dans plusieurs domaines :
1. Performance exceptionnelle et faibles exigences en ressources
- Classé premier sur le classement VBench avec un score total de 86,22%, surpassant des modèles comme Sora (84,28%) et Luma (83,61%)
- La version légère T2V-1.3B nécessite seulement 8,19 Go de mémoire vidéo, permettant de fonctionner sur des cartes graphiques de consommation
- Supporte la génération de vidéos en résolution 8K avec des détails atteignant les normes cinématographiques
2. Support fonctionnel complet
- Supporte plusieurs tâches telles que la génération de vidéos à partir de texte (T2V), d’images (I2V) et l’édition de vidéos
- Introduit pour la première fois la génération d’effets de texte bilingues (chinois et anglais), supportant les sous-titres dynamiques et les polices artistiques
- Ajoute la fonctionnalité de génération d’audio à partir de vidéos (V2A), réalisant une génération synchronisée de l’audio et de la vidéo
3. Architecture technique innovante
- Formé en utilisant le paradigme de Flow Matching de trajectoire bruitée linéaire
- Le Wan-VAE peut gérer des vidéos de n’importe quelle longueur en résolution 1080P
- Le module de convolution causal 3D améliore les capacités de simulation physique
Sélection de version et exigences matérielles
Wan2.1 offre deux versions pour répondre à différents scénarios :
-
Édition rapide (1.3B)
- Nécessite seulement 8,19 Go de mémoire vidéo
- Convenable pour les développeurs individuels
- Le temps de génération d’une vidéo de 5 secondes en 480P est d’environ 4 minutes
-
Édition professionnelle (14B)
- Supporte le rendu professionnel en 720P
- Convenable pour les applications industrielles du cinéma et de la télévision
- Offre une interface plus riche pour les effets spéciaux
Acquisition de ressources open-source
Tous les modèles sont maintenant disponibles pour téléchargement sur les plateformes Hugging Face et ModelScope :
- T2V-14B : Hugging Face | ModelScope
- I2V-14B-720P : Hugging Face | ModelScope
- T2V-1.3B : Hugging Face | ModelScope
Scénarios d’application
L’application de Wan2.1 est large, comprenant principalement :
Création personnelle
- Génération de contenu de vidéos courtes
- Aide à la création artistique
- Animation d’images
Production professionnelle
- Production d’effets spéciaux pour le cinéma et la télévision
- Conception créative publicitaire
- Production de ressources éducatives
Application industrielle
- Animation de produits
- Présentation d’effets pour l’architecture
- Visualisation de processus industriels
Avenir
L’ouverture de Wan2.1 apportera de nouvelles opportunités pour la création de vidéos AI. En particulier, ses faibles exigences matérielles permettront à plus de développeurs individuels et de petites équipes de participer à la pratique de la génération de vidéos AI. Cela ne fera pas que promouvoir la diffusion de la technologie, mais également stimuler le développement de l’industrie dans son ensemble.
Liens associés
- Référentiel GitHub
- Plateforme de démonstration en ligne
- Documentation technique
- Communauté des développeurs