Alibaba publie le modèle Wan-Animate - Technologie unifiée d’animation et de remplacement de personnages
Le laboratoire Tongyi d’Alibaba a officiellement publié aujourd’hui Wan-Animate, un cadre unifié d’animation de personnages basé sur Wan2.2. Le modèle peut reproduire avec précision les expressions et les mouvements d’un personnage à partir d’une vidéo de référence pour générer des vidéos de personnages haute fidélité, tout en prenant en charge l’intégration transparente de personnages animés dans des vidéos de référence pour remplacer les personnages originaux.
Vidéos de démonstration
Fonctionnalités principales
Wan-Animate propose deux modes fonctionnels principaux :
Mode animation : À partir d’une image de personnage et d’une vidéo de référence, le modèle peut animer le personnage en reproduisant avec précision les expressions et les mouvements de la vidéo, générant ainsi des vidéos de personnages de haute qualité.
Mode remplacement : Intègre des personnages animés dans des vidéos de référence pour remplacer les personnages originaux, tout en reproduisant l’éclairage et les tons de la scène pour une intégration environnementale transparente.
Innovations techniques
Cadre d’entrée unifié
Wan-Animate est basé sur le modèle Wan-I2V, utilisant un paradigme d’entrée modifié pour distinguer les conditions de référence des régions de génération. Cette conception unifie l’injection d’images de référence, le guidage temporel des images et la sélection de mode dans une représentation symbolique universelle, réduisant efficacement le décalage de distribution pendant l’entraînement.
Stratégie de contrôle globale
Le modèle décompose les signaux de contrôle en deux parties : les mouvements du corps et les expressions faciales :
- Contrôle du corps : Utilise une représentation basée sur le squelette, injectée dans les variables latentes de bruit initial par alignement spatial
- Contrôle facial : Utilise directement les images faciales brutes de la vidéo de référence comme signaux de pilotage, encodées en vecteurs latents pour séparer les informations d’expression des attributs d’identité
Adaptation de l’éclairage environnemental
Pour améliorer la cohérence environnementale lors du remplacement de personnages, l’équipe a développé un module LoRA d’éclairage auxiliaire. Ce module applique un éclairage et des tons environnementaux appropriés tout en maintenant la cohérence de l’apparence du personnage, obtenant des effets de fusion de scène plus naturels.
Performances
Les résultats expérimentaux montrent que Wan-Animate atteint un niveau de pointe sur plusieurs dimensions d’évaluation :
- Dépasse les cadres existants d’animation de personnages open-source sur des métriques quantitatives telles que SSIM, LPIPS et FVD
- Se distingue favorablement des solutions commerciales comme Runway Act-two et Bytedance DreamActor-M1 dans les évaluations humaines
- Prend en charge des résolutions de sortie arbitraires, maintenant le même rapport d’aspect que les vidéos de référence en mode remplacement
Scénarios d’application
Wan-Animate présente un potentiel d’application étendu dans plusieurs domaines :
- Production cinématographique et télévisuelle : Recréer des scènes d’interprétation classiques, réaliser des transformations de personnages transversales
- Créativité publicitaire : Remplacement de personnages et édition de photographies commerciales
- Contenu de courtes vidéos : Réplication de mouvements de danse et génération de mouvements de caméra dynamiques
- Avatars numériques : Création d’animations de personnages personnalisés
Spécifications techniques
La version actuelle prend en charge les spécifications d’entrée suivantes :
- Fichiers vidéo : Moins de 200 Mo, résolution du côté minimum supérieure à 200 pixels, côté maximum inférieur à 2048 pixels
- Durée vidéo : 2-30 secondes, rapport d’aspect 1:3 à 3:1
- Fichiers image : Moins de 5 Mo, formats supportés jpg, png, jpeg, webp, bmp
Liens associés
Avec la publication de Wan-Animate, Alibaba apporte un outil open-source puissant et facile d’utilisation au domaine de l’animation de personnages, promettant de faire progresser et de populariser davantage les technologies associées.