Publication de la version open source de WAN2.2 et prise en charge native par ComfyUI dès le premier jour

ComfyUI Wan2.2 Open Source Version Support Release

L’équipe WAN a officiellement publié la version open source de Wan2.2 ! Il s’agit d’un nouveau modèle multimodal de génération vidéo, basé sur une architecture MoE (Mixture of Experts) innovante, qui améliore la qualité de la génération vidéo. Ce modèle est entièrement open source sous licence Apache 2.0 et peut être utilisé à des fins commerciales.

ComfyUI propose désormais un support natif pour Wan2.2 dès sa sortie ! Vous pouvez donc expérimenter directement la technologie de génération vidéo de Wan2.2 dans ComfyUI. Le modèle se compose d’experts spécialisés pour les étapes à fort bruit et à faible bruit, permettant une répartition des tâches selon les étapes de débruitage, ce qui améliore la qualité des vidéos générées.

J’ai terminé le tutoriel officiel pour la version native dans la documentation officielle ComfyUI. Le tutoriel pour WanVideoWrapper sera mis à jour prochainement.

Fonctionnalités du modèle Wan2.2

Architecture MoE (Mixture of Experts) : Les experts à fort bruit gèrent la structure globale, ceux à faible bruit affinent les détails
Contrôle esthétique cinématographique : Gestion professionnelle de la lumière, des couleurs et de la composition pour un rendu visuel avancé
Gestion des mouvements complexes à grande échelle : Restaure de façon fluide divers mouvements complexes, améliorant le contrôle et le réalisme
Respect précis de la sémantique : Compréhension de scènes complexes, génération multi-objets, meilleure restitution de l’intention créative
Technologie de compression efficace : Mise à niveau significative des données par rapport à la version 2.1, VAE à fort taux de compression pour la version 5B, optimisation de la mémoire

Avancées techniques de Wan2.2

Conception innovante de l’architecture MoE
Wan2.2 est le premier modèle à appliquer avec succès l’architecture MoE aux modèles de diffusion pour la génération vidéo. La version 27B combine des experts pour les étapes à fort et faible bruit, répartissant les tâches selon les phases du processus de débruitage. L’étape à fort bruit se concentre sur la structure globale de la vidéo, tandis que l’étape à faible bruit affine les détails, ce qui améliore la qualité du résultat.

Amélioration majeure des données d’entraînement
Par rapport à Wan2.1, Wan2.2 bénéficie d’une augmentation significative des données d’entraînement : +65,6% pour les images et +83,2% pour les vidéos. Cette expansion améliore la capacité de généralisation du modèle et enrichit la diversité créative, ce qui le rend plus performant dans des scènes complexes, l’expression esthétique et la génération de mouvements.

Ajustement esthétique et apprentissage par renforcement
Wan2.2 introduit une phase dédiée à l’ajustement esthétique, intégrant les standards de l’industrie du cinéma pour l’éclairage, la composition et la psychologie des couleurs. Grâce à l’apprentissage par renforcement (RL), le modèle est affiné pour mieux correspondre aux préférences esthétiques humaines et produire des vidéos plus proches des standards professionnels.

Versions du modèle Wan2.2

Versions originales

Wan2.2-TI2V-5B : Génération vidéo à partir de texte/image
https://huggingface.co/Wan-AI/Wan2.2-TI2V-5B
Wan2.2-I2V-A14B : Conversion d’images en vidéo
https://huggingface.co/Wan-AI/Wan2.2-I2V-A14B
Wan2.2-T2V-A14B : Génération de vidéos de haute qualité à partir de texte
https://huggingface.co/Wan-AI/Wan2.2-T2V-A14B

Version reconditionnée pour ComfyUI

https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged

📚 Versions disponibles

Wan2.2-TI2V-5B : FP16
Wan2.2-I2V-14B : FP16/FP8
Wan2.2-T2V-14B : FP16/FP8

Prise en charge de Wan2.2 par ComfyUI

ComfyUI, en tant que plateforme leader de workflow pour la génération d’images par IA, prend désormais en charge Wan2.2 de façon native. Les utilisateurs peuvent accéder directement à différentes fonctions de Wan2.2 dans ComfyUI, notamment :

Génération de vidéo à partir de texte : Créez des vidéos de qualité à partir de simples descriptions textuelles
Conversion d’image en vidéo : Transformez des images statiques en contenus vidéo dynamiques
Mode mixte : Prise en charge des entrées combinant texte et image

Le design basé sur des nœuds (workflow) de ComfyUI rend l’utilisation de Wan2.2 plus flexible et efficace, permettant de combiner facilement différents paramètres pour obtenir les meilleurs résultats.

Mise à niveau de la plateforme web Tongyi Wanxiang

En plus du modèle open source, la plateforme web Tongyi Wanxiang a également été mise à jour :

Nouvelles fonctionnalités créatives

Wanxiang Box : Point d’entrée unifié pour la création d’images et de vidéos
Vue agrégée : Nouvelle fonction permettant d’agréger les tâches avec les mêmes entrées et l’édition continue

Fonction de gestion de projet

Gestion des ressources par projet : Organisation de la création vidéo par projet
Montage sur timeline : Fonction de timeline pour éditer et organiser les ressources
Édition et traitement vidéo : Prise en charge de l’édition locale, du redessin, de l’extension et d’autres opérations