Skip to content
Devenir Parrain Aidez à Construire une Meilleure Base de Connaissances ComfyUI
ActualitésLe modèle de génération vidéo Alibaba Wanx 2.1 devient open source

Le modèle de génération vidéo Alibaba Wanx 2.1 devient open source

Alibaba a annoncé le 21 février 2025 que son dernier modèle de génération vidéo, Wanx 2.1, deviendra open source au deuxième trimestre. Cela inclura le modèle, l’ensemble de données d’entraînement, le pack d’outils légers, etc. Cette annonce a suscité l’attention de la communauté AI dans son ensemble.

Innovation technologique et percée

Wanx 2.1 a réalisé une percée technologique sur plusieurs aspects :

Fusion multimodale et génération haute efficacité

  • Prise en charge de la génération simultanée de vidéos HD 1080p, de sous-titres dynamiques et de voix multilingues
  • Adopte l’architecture VAE (Encodeur automatique variationnel) et DiT (Transformateur de diffusion de bruit)
  • Amélioration de l’efficacité de génération, capable de générer une vidéo d’une minute en seulement 15 secondes, soit une amélioration de la vitesse de 4 fois par rapport à la génération précédente
  • Simulation précise des lois physiques, y compris le mouvement des membres et les effets de fluide

Système d’effets spéciaux et de style artistique

  • Intègre plus de 100 modèles de style artistique, y compris la peinture à l’huile et le cyberpunk
  • Réalise pour la première fois au monde la capacité de générer des effets spéciaux de texte en anglais et en chinois, prend en charge la génération de sous-titres dynamiques et de polices d’affiche
  • Assure une correspondance précise entre les instructions textuelles et la génération vidéo grâce à l’entraînement contextuel ultra-long

Évaluation des performances

Dans le classement d’évaluation VBench, Wanx 2.1 est en tête avec un score total de 84,7%. Il se distingue particulièrement dans les dimensions suivantes :

  • Expression de la dynamique
  • Traitement des relations spatiales
  • Capacité d’interaction multi-objets

Scénarios d’application

Le champ d’application de Wanx 2.1 est large, comprenant principalement :

Création commerciale

  • Génération en masse de contenus vidéo courts
  • Personnalisation des animations publicitaires de produits

Éducation et culture

  • Production de vidéos éducatives immersives
  • Restauration et reconstruction de vidéos historiques

Publicité cinématographique

  • Effets de miroir de qualité cinématographique
  • Génération de polices d’effets spéciaux professionnelles
  • Conception créative de publicités

Utilisation et acquisition

Actuellement, les utilisateurs individuels peuvent expérimenter gratuitement le service en ligne via le site officiel de Tongyi Wanx. Les utilisateurs professionnels peuvent appeler l’API via la plateforme Alibaba Cloud Model Studio.

Il convient de noter en particulier que le modèle n’est pas encore open source, mais Alibaba s’est engagé à rendre le code source du modèle, l’ensemble de données d’entraînement et le pack d’outils associé open source au deuxième trimestre 2025. Cela apportera de nouvelles opportunités de développement dans le domaine de la génération vidéo AI.

Perspectives futures

La mise en open source de Wanx 2.1 apportera une impulsion importante à l’écosystème de création vidéo AI. En particulier, les perspectives d’application dans des domaines à vocation sociale tels que la création de ressources éducatives et la préservation du patrimoine culturel sont vastes. Cependant, les utilisateurs ont découvert des points à améliorer, tels que de rares erreurs dans la génération de texte en chinois. Ces problèmes seront résolus dans les futures versions.

Liens connexes