Le modèle de génération vidéo Alibaba Wanx 2.1 devient open source
Alibaba a annoncé le 21 février 2025 que son dernier modèle de génération vidéo, Wanx 2.1, deviendra open source au deuxième trimestre. Cela inclura le modèle, l’ensemble de données d’entraînement, le pack d’outils légers, etc. Cette annonce a suscité l’attention de la communauté AI dans son ensemble.
Innovation technologique et percée
Wanx 2.1 a réalisé une percée technologique sur plusieurs aspects :
Fusion multimodale et génération haute efficacité
- Prise en charge de la génération simultanée de vidéos HD 1080p, de sous-titres dynamiques et de voix multilingues
- Adopte l’architecture VAE (Encodeur automatique variationnel) et DiT (Transformateur de diffusion de bruit)
- Amélioration de l’efficacité de génération, capable de générer une vidéo d’une minute en seulement 15 secondes, soit une amélioration de la vitesse de 4 fois par rapport à la génération précédente
- Simulation précise des lois physiques, y compris le mouvement des membres et les effets de fluide
Système d’effets spéciaux et de style artistique
- Intègre plus de 100 modèles de style artistique, y compris la peinture à l’huile et le cyberpunk
- Réalise pour la première fois au monde la capacité de générer des effets spéciaux de texte en anglais et en chinois, prend en charge la génération de sous-titres dynamiques et de polices d’affiche
- Assure une correspondance précise entre les instructions textuelles et la génération vidéo grâce à l’entraînement contextuel ultra-long
Évaluation des performances
Dans le classement d’évaluation VBench, Wanx 2.1 est en tête avec un score total de 84,7%. Il se distingue particulièrement dans les dimensions suivantes :
- Expression de la dynamique
- Traitement des relations spatiales
- Capacité d’interaction multi-objets
Scénarios d’application
Le champ d’application de Wanx 2.1 est large, comprenant principalement :
Création commerciale
- Génération en masse de contenus vidéo courts
- Personnalisation des animations publicitaires de produits
Éducation et culture
- Production de vidéos éducatives immersives
- Restauration et reconstruction de vidéos historiques
Publicité cinématographique
- Effets de miroir de qualité cinématographique
- Génération de polices d’effets spéciaux professionnelles
- Conception créative de publicités
Utilisation et acquisition
Actuellement, les utilisateurs individuels peuvent expérimenter gratuitement le service en ligne via le site officiel de Tongyi Wanx. Les utilisateurs professionnels peuvent appeler l’API via la plateforme Alibaba Cloud Model Studio.
Il convient de noter en particulier que le modèle n’est pas encore open source, mais Alibaba s’est engagé à rendre le code source du modèle, l’ensemble de données d’entraînement et le pack d’outils associé open source au deuxième trimestre 2025. Cela apportera de nouvelles opportunités de développement dans le domaine de la génération vidéo AI.
Perspectives futures
La mise en open source de Wanx 2.1 apportera une impulsion importante à l’écosystème de création vidéo AI. En particulier, les perspectives d’application dans des domaines à vocation sociale tels que la création de ressources éducatives et la préservation du patrimoine culturel sont vastes. Cependant, les utilisateurs ont découvert des points à améliorer, tels que de rares erreurs dans la génération de texte en chinois. Ces problèmes seront résolus dans les futures versions.