Kunlun Wanwei ouvre le code source de SkyReels-A2 : un cadre de génération vidéo de qualité commerciale
Le 6 avril 2025, Kunlun Wanwei a officiellement ouvert le code source de son dernier modèle SkyReels-A2, le premier cadre de génération “Éléments-vers-Vidéo” (Elements-to-Video, E2V) au monde destiné aux scénarios commerciaux. Grâce à une architecture innovante à double branche, ce cadre peut transformer plusieurs images de référence en un contenu vidéo cohérent et fluide, marquant la transition de la technologie de génération vidéo par IA du stade expérimental à l’application pratique.
Points forts techniques : l’architecture à double branche franchit les obstacles de la génération vidéo
L’innovation principale de SkyReels-A2 réside dans son système unique d’encodage de caractéristiques à double branche :
-
Branche des caractéristiques spatiales : Utilise un encodeur VAE raffiné pour traiter les images, extrayant les textures et les détails des personnages, objets, arrière-plans et autres éléments, assurant une haute cohérence entre chaque élément dans la vidéo générée et les images de référence.
-
Branche des caractéristiques sémantiques : Utilise l’encodeur visuel CLIP et des couches de projection MLP pour capturer les associations sémantiques de haut niveau entre les éléments, les intégrant dans le modèle de diffusion via des mécanismes d’attention croisée pour assurer la cohérence logique et la continuité dynamique des scènes.
Cette conception résout avec succès les défis techniques liés au contrôle de la cohérence multi-éléments et à la coordination sémantique des scènes complexes auxquels sont confrontés les modèles traditionnels de génération vidéo, rendant les vidéos générées plus fluides et réalistes que de nombreux modèles commerciaux à code fermé.
Applications étendues : de l’e-commerce à la production cinématographique
SkyReels-A2 démontre un potentiel d’application puissant dans plusieurs domaines :
-
E-commerce virtuel : Il suffit d’entrer une image d’hôte et des images de produits pour générer des vidéos de recommandation dynamiques, résolvant les problèmes de coût élevé et de cycles de production longs de la publicité traditionnelle.
-
Production cinématographique : Prend en charge les combinaisons de plusieurs personnages et arrière-plans, capable de générer des scènes interactives de niveau cinématographique comme des évacuations de groupe dans des films catastrophes ou des interactions entre personnages dans des drames, avec une composition et des effets d’éclairage atteignant des standards professionnels.
-
Multimédia musical : Peut combiner des éléments d’arrière-plan et des rythmes pour générer des segments de clips musicaux, offrant aux musiciens indépendants des outils créatifs à faible coût.
Écosystème open source : promouvoir l’accessibilité technologique de l’industrie
Cette publication en open source est une étape importante dans la stratégie de Kunlun Wanwei dans le secteur de la vidéo IA. Les modèles précédemment publiés SkyReels-V1 (modèle de génération de courts drames) et SkyReels-A1 (algorithme de contrôle d’expression et d’action) ont déjà accumulé un large écosystème de développeurs. SkyReels-A2 fournit en plus :
-
Cadre d’inférence efficace : Une seule carte graphique RTX 4090 peut générer une vidéo 544p en 80 secondes, avec prise en charge du traitement parallèle multi-cartes et de l’optimisation pour faible VRAM.
-
Pipeline de traitement de données structuré : L’ensemble du flux de travail, de l’annotation vidéo à la segmentation des éléments jusqu’à l’appariement de triplets, est en open source, réduisant considérablement le seuil d’application pour les entreprises.
Spécifications du modèle et paramètres techniques
SkyReels-A2 propose plusieurs versions du modèle pour répondre aux besoins de différents scénarios d’application :
- A2-Wan2.1-14B-Preview (Publié) : Prend en charge la génération d’environ 81 images à une résolution de 480×832
- A2-Wan2.1-14B (À venir) : Version de base avec les mêmes paramètres vidéo que la version Preview
- A2-Wan2.1-14B-Infinity (À venir) : Prend en charge la génération de vidéos de longueur illimitée avec une résolution accrue de 720×1080
Le modèle est basé sur une architecture de transformateur de diffusion vidéo, utilisant un système d’encodage innovant à double branche pour obtenir un contrôle précis sur les images de référence, assurant une haute cohérence des objets, personnages et éléments d’arrière-plan dans les vidéos générées.
Plans de développement récents
L’équipe de Kunlun Wanwei a annoncé des plans de développement récents pour SkyReels-A2 :
- Lancement du système d’évaluation A2-Bench et de son classement
- Publication de la séquence complète de modèles, incluant des versions prenant en charge la génération de vidéos de longueur illimitée
- Optimisation des performances d’inférence pour les GPU RTX 4090
- Intégration du support ComfyUI, facilitant l’utilisation du modèle via une interface graphique
Impact sur l’industrie et perspectives d’avenir
La sortie de SkyReels-A2 comble le vide dans les capacités de contrôle de qualité commerciale des modèles de génération vidéo open source et pourrait changer les processus traditionnels de production vidéo. Les experts de l’industrie pensent que cette technologie accélérera la popularisation de la production de contenu personnalisé et des médias interactifs en temps réel, comme la génération de vidéos e-commerce en direct en combinant la capture de mouvement en temps réel, ou la construction dynamique d’environnements virtuels pour les scénarios de métavers.
L’équipe de Kunlun Wanwei affirme qu’elle continuera d’optimiser les capacités du modèle en matière de cohérence temporelle des longues vidéos et d’interaction avec le moteur physique, et d’explorer l’intégration profonde avec des outils de modélisation 3D.
Liens connexes
- Dépôt GitHub SkyReels-A2
- Page du modèle SkyReels-A2 sur Hugging Face
- Page d’accueil du projet SkyReels-A2
- Ensemble de données d’évaluation A2-Bench
- Site de démonstration officiel SkyReels
- Communauté Discord SkyReels