Aucun article pour le moment. Revenez plus tard !

Wan2.2-S2V : Modèle de Génération Vidéo Piloté par Audio Lancé

Wan2.2-S2V est un modèle de génération vidéo IA qui peut convertir des images statiques et des entrées audio en contenu vidéo. Le modèle peut générer des vidéos jusqu’au niveau de minutes en une seule génération, fournissant de nouvelles solutions pour la création vidéo dans les industries de streaming en direct d’humains numériques, de production cinématographique et d’éducation.

Le modèle performe bien dans les scénarios d’application cinématographique et télévisuelle, capable de générer des expressions faciales, des mouvements corporels et un langage de caméra. Il supporte la génération de personnages en corps entier et demi-corps, capable de compléter divers besoins de création de contenu comme le dialogue, le chant et la performance.

Caractéristiques Techniques

Image + Audio = Génération Vidéo Wan2.2-S2V utilise des méthodes d’entrée combinées d’image et d’audio, générant du contenu vidéo à travers une image statique et un clip audio. Le modèle supporte des personnes réelles, des dessins animés, des animaux, des humains numériques et d’autres types d’images, et supporte les formats portrait, demi-corps et corps entier. Après avoir téléchargé un clip audio, le modèle peut faire effectuer au sujet principal dans l’image des actions comme parler, chanter et performer.

Génération Vidéo Pilotée par Audio Le modèle peut générer des vidéos basées sur l’entrée audio, soutenant la génération de scènes de dialogue et narratives. À travers l’entrée audio, le modèle peut contrôler la synchronisation labiale, les expressions et les mouvements des personnages, atteignant la synchronisation audio-vidéo.

Fonction de Contrôle de Texte Wan2.2-S2V supporte également le contrôle de texte, permettant le contrôle des scènes vidéo à travers l’entrée de Prompt, permettant des changements dans les mouvements des sujets vidéo et les arrière-plans. Par exemple, en téléchargeant une photo de quelqu’un jouant du piano, une chanson et une description de texte, le modèle peut générer une vidéo de performance de piano, maintenant la cohérence du personnage avec l’image originale, synchronisant les expressions faciales et les mouvements de bouche avec l’audio, et faisant correspondre les mouvements des doigts au rythme audio.

Architecture Technique

Wan2.2-S2V est basé sur le modèle de base de génération vidéo Tongyi Wanxiang, combinant le contrôle de mouvement global guidé par texte et le contrôle de mouvement local piloté par audio pour atteindre la génération vidéo pilotée par audio. Le modèle adopte les mécanismes de contrôle AdaIN et CrossAttention pour améliorer les effets de contrôle audio.

Pour supporter la génération de vidéos longues, Wan2.2-S2V utilise la technologie de compression de frames hiérarchique pour réduire le nombre de tokens des frames historiques, étendant les motion frames (frames de référence historiques) de plusieurs frames à 73 frames, atteignant une génération stable de vidéos longues.

En entraînement, l’équipe a construit un ensemble de données de plus de 600 000 segments audio-vidéo, utilisant l’entraînement parallèle mixte pour l’entraînement de paramètres complets. Le modèle supporte l’entraînement et l’inférence multi-résolution, s’adaptant aux différents besoins de génération vidéo de résolution.

Métriques de Performance

Les données de test montrent que Wan2.2-S2V performe bien sur plusieurs métriques d’évaluation :

FID (Qualité Vidéo): 15.66
EFID (Authenticité d’Expression): 0.283
CSIM (Cohérence d’Identité): 0.677
SSIM (Similarité Structurelle): 0.734
PSNR (Rapport Signal-Bruit de Crête): 20.49

Ces métriques indiquent que Wan2.2-S2V performe bien en qualité vidéo, authenticité d’expression et cohérence d’identité.

Scénarios d’Application

Wan2.2-S2V est approprié pour divers scénarios de création de contenu professionnel :

Production Cinématographique: Soutient la génération de scènes de dialogue et narratives de films
Vidéos Musicales: Peut générer des vidéos de performance musicale synchronisées basées sur l’audio
Contenu Éducatif: Soutient la génération automatisée de vidéos éducatives
Contenu de Divertissement: Applicable à divers vidéos de divertissement et de performance

Caractéristiques Techniques

Les principales caractéristiques techniques de Wan2.2-S2V incluent :

Synchronisation Audio-Vidéo: Atteint la synchronisation audio-vidéo à travers le pipeline de traitement audio
Génération d’Expression et de Mouvement: Peut générer des expressions faciales et des mouvements corporels
Contrôle de Caméra: Supporte différents angles de caméra et langage de lentille
Support Multi-Résolution: S’adapte aux différents besoins de génération vidéo de résolution

Open Source et Expérience

Adresses Open Source:

Adresses d’Expérience:

Wan2.2-S2V fournit de nouvelles solutions techniques pour le domaine de génération vidéo IA, offrant aux créateurs de contenu des outils pour la génération vidéo pilotée par audio. Le modèle a un potentiel d’application dans la production cinématographique, la production de vidéos musicales et d’autres domaines.