Lancement de VACE par le Laboratoire Tongyi d’Alibaba : Modèle intégré de création et d’édition vidéo
Le laboratoire Tongyi a lancé le 11 mars son nouveau modèle de création et d’édition vidéo VACE (Création et Édition Vidéo), un outil d’IA qui intègre plusieurs fonctions de traitement vidéo dans un seul cadre, visant à simplifier le processus de création vidéo.
Principales caractéristiques
L’avantage principal du modèle VACE réside dans sa capacité de traitement “tout-en-un”, intégrant des tâches complexes qui nécessitaient traditionnellement plusieurs outils en un seul cadre. Les fonctions spécifiques incluent :
Cadre unifié pour plusieurs tâches
- Texte en vidéo (T2V) : Générer directement du contenu vidéo correspondant à partir de descriptions textuelles
- Référence en vidéo (R2V) : Générer des vidéos contenant des sujets spécifiques basés sur des échantillons d’images ou de vidéos
- Vidéo à vidéo (V2V) : Réaliser des ajustements globaux tels que la transformation de style vidéo et l’ajout d’éléments dynamiques
- Édition vidéo masquée (MV2V) : Modifier des zones spécifiques de la vidéo à l’aide de masques spatio-temporels
Capacité de combinaison créative flexible
La caractéristique la plus distinctive de VACE est son support pour “l’édition universelle”, permettant aux utilisateurs de combiner différentes fonctions de manière flexible :
- Déplacer n’importe quel objet : Ajuster la trajectoire de mouvement des objets dans la vidéo
- Remplacer n’importe quel objet : Substituer des personnages ou des objets dans la vidéo par des références spécifiques
- Étendre n’importe quelle image : Élargir les bords de la vidéo ou remplir le contenu
- Animer n’importe quel objet statique : Donner aux images statiques un effet de mouvement naturel
Points techniques saillants
Le modèle VACE intègre plusieurs technologies innovantes :
- Unité conditionnelle vidéo : Traitement unifié des entrées multimodales telles que texte, images, vidéos et masques
- Stratégie de découplage des concepts : Séparer automatiquement les éléments dans la vidéo (comme les personnages, les arrière-plans, les actions), permettant des modifications indépendantes
- Structure d’adaptateur contextuel : Basée sur l’architecture des transformateurs de diffusion, ajustant dynamiquement la stratégie de génération pour s’adapter à différentes tâches
Scénarios d’application pratique
Ce modèle peut être largement appliqué à :
- Production rapide de vidéos courtes pour les réseaux sociaux
- Création de contenu publicitaire et marketing
- Production et post-production d’effets spéciaux au cinéma
- Génération de vidéos pour l’éducation et la formation
Équipe de développement
VACE a été développé par l’équipe de recherche du laboratoire Tongyi, dont les membres clés incluent : Zeyinzi Jiang, Zhen Han, Chaojie Mao, Jingfeng Zhang, Yulin Pan et Yu Liu.
Développement futur
L’équipe de développement a déclaré que VACE continuera à être optimisé à l’avenir :
- Améliorer la qualité et la cohérence de la génération vidéo
- Étendre les capacités d’édition en temps réel
- Renforcer les fonctionnalités de génération 3D
- Explorer l’interaction par commandes vocales
Le lancement de VACE représente une étape importante dans le développement des outils de création vidéo IA vers une plus grande facilité d’utilisation et intégration, et devrait considérablement réduire le seuil d’entrée pour la création vidéo, offrant aux créateurs de contenu des outils plus pratiques.