Le laboratoire Tongyi d’Alibaba lance VACE : La création et l’édition vidéo entrent dans l’ère unifiée
2 avril 2025, Hangzhou — Le laboratoire Tongyi du groupe Alibaba a officiellement lancé VACE (Video Creation and Editing Framework), le premier cadre unifié au monde pour diverses tâches vidéo. Ce cadre intègre des technologies multimodales pour réaliser une couverture complète allant de la génération de texte en vidéo à l’édition vidéo jusqu’aux combinaisons de tâches complexes, marquant une avancée significative dans la technologie vidéo IA, passant de fonctions isolées à des capacités intelligentes de bout en bout.
Caractéristiques principales : Le “couteau suisse” de la vidéo
VACE intègre quatre fonctionnalités principales dans une plateforme unifiée :
- Texte vers vidéo (T2V) : Génère des vidéos dynamiques avec uniquement des descriptions textuelles. Par exemple, “un chat jouant dans l’herbe” se transforme en une scène vivante.
- Référence vers vidéo (R2V) : Génère du contenu basé sur des images ou des segments vidéo, assurant l’incorporation précise d’éléments spécifiés (comme des personnages ou des scènes spécifiques).
- Édition vidéo vers vidéo (V2V) : Prend en charge les ajustements de style de l’ensemble de la vidéo (comme les conversions de style cyberpunk), la reconstruction des couleurs et l’ajout d’éléments dynamiques.
- Édition vidéo masquée vers vidéo (MV2V) : Implémente des réparations locales et l’expansion des cadres grâce à la technologie de masque spatio-temporel, intégrant parfaitement les zones modifiées à la vidéo originale.
Plus remarquablement, VACE prend en charge la combinaison libre de ces fonctionnalités. Par exemple, combiner la “génération d’images de référence” avec “l’édition de masque” permet des créations complexes comme le remplacement d’objets et le transfert d’actions, brisant les limites des outils traditionnels.
Percées techniques : Trois moteurs innovants
Unité de condition vidéo (VCU)
Interface unifiée pionnière pour les entrées multimodales, convertissant des données hétérogènes telles que le texte, les images, la vidéo et les masques en flux d’entrée standardisés, résolvant les problèmes de complexité liés à la commutation de plusieurs modèles dans les outils traditionnels.
Stratégie de découplage conceptuel
Séparation automatique des éléments tels que les personnages, les arrière-plans et les actions dans les vidéos pour permettre une édition ciblée. Par exemple, maintenir la scène tout en remplaçant le personnage principal, évitant les ruptures logiques causées par l’édition traditionnelle.
Architecture d’adaptateur contextuel
Un noyau intelligent reconstruit basé sur le Diffusion Transformer (DiT), ajustant dynamiquement les stratégies de génération selon les exigences des tâches. Il se concentre sur les détails dans les tâches de réparation et optimise l’atmosphère globale dans les tâches de stylisation.
Les données de test montrent que les vidéos 1080P générées par VACE présentent une amélioration de 23% des métriques de continuité dynamique par rapport aux produits similaires, et une augmentation de 40% de l’efficacité d’édition dans des scénarios complexes.
Scénarios d’application : Remodelage de la productivité industrielle
- Création de contenu : Les créateurs de vidéos courtes peuvent rapidement générer des cadres de matériel grâce à “texte + images de référence”, puis affiner leur travail par édition locale.
- Industrie cinématographique et télévisuelle : Automatisation de la production d’effets spéciaux et réparation des défauts. Les tests d’une société de cinéma montrent une réduction de 60% des coûts de post-production.
- Plateformes sociales : Prend en charge la génération en un clic de contenu animé personnalisé, déjà intégré dans plusieurs applications sociales de l’écosystème Alibaba.
- Éducation et formation : Les enseignants peuvent générer des vidéos pédagogiques basées sur le texte et les images des supports de cours, et les étudiants peuvent créer des supports d’apprentissage interactifs.
Disposition stratégique : Jalon pour l’IA vers le consommateur
Ce lancement est une mise en œuvre importante de la stratégie “AI To C” d’Alibaba. Depuis que l’équipe Tongyi a été détachée d’Alibaba Cloud et intégrée au Groupe d’Affaires d’Information Intelligente fin 2024, son processus de productisation s’est considérablement accéléré. Le lancement de VACE comble non seulement le vide dans les outils de création vidéo grand public, mais forme également une synergie technique avec le système ViDoRAG précédemment open-source du laboratoire Tongyi (79,4% de précision dans la compréhension des documents), construisant une boucle fermée écologique d’IA multimodale.
Un représentant du laboratoire Tongyi a déclaré : “VACE servira de point d’entrée pour un agent super intelligent, se connectant à davantage de capacités du grand modèle Qianwen à l’avenir, réalisant finalement une expérience créative ‘pensez-le, obtenez-le’.” Actuellement, VACE a lancé une version d’aperçu, avec des plans pour une disponibilité commerciale complète au troisième trimestre 2025.