Kuaishou Lance CineMaster : La Version Vidéo de ControlNet Révolutionne la Génération Vidéo avec Perception 3D
Kuaishou a récemment dévoilé CineMaster, un cadre révolutionnaire de génération de vidéo à partir de texte, marquant une étape importante dans la création vidéo. Ce cadre dispose de puissantes capacités de perception 3D et est salué comme la version vidéo de ControlNet, offrant aux créateurs un contrôle précis sans précédent sur les éléments vidéo, y compris la position, les trajectoires de mouvement et les mises en page spatiales 3D.
Innovations Techniques dans CineMaster
CineMaster emploie une conception innovante de cadre en deux étapes:
Points Forts du Cadre CineMaster
La force principale de CineMaster réside dans sa haute contrôlabilité de la génération vidéo. Les utilisateurs peuvent non seulement créer du contenu vidéo entièrement contrôlable, mais aussi extraire des informations 3D des vidéos pour une création secondaire et l’édition, permettant le transfert de style. Cela fait de CineMaster un outil créatif puissant qui permet aux utilisateurs de placer précisément des objets et d’ajuster avec flexibilité les angles de caméra dans l’espace 3D.
Contrôle Précis des Objets et du Mouvement de la Caméra
CineMaster permet aux créateurs de contrôler précisément les positions des objets et les trajectoires de la caméra grâce à de multiples signaux de contrôle. Cela signifie que les utilisateurs peuvent générer des scènes dynamiques et intégrer des éléments 3D complexes, offrant une liberté créative sans précédent dans la production vidéo.
Flux de Travail en Deux Étapes de CineMaster
CineMaster fonctionne en deux étapes :
-
Flux de Travail Interactif : Les utilisateurs construisent intuitivement des signaux de contrôle en positionnant des boîtes englobantes d’objets et en définissant les mouvements de caméra dans l’espace 3D. Cette étape fournit un environnement intuitif et convivial avec conscience 3D.
-
Génération de Signaux de Contrôle : Les signaux de contrôle générés dans la première étape (y compris les cartes de profondeur, les trajectoires de caméra et les étiquettes de catégorie d’objets) sont introduits dans le modèle de diffusion texte-vers-vidéo pour guider la génération de contenu vidéo répondant aux exigences des utilisateurs.
Pipeline d’Annotation de Données
Pour surmonter la rareté des données d’annotation de boîtes 3D et de poses de caméra, Kuaishou a construit un pipeline d’annotation de données automatisé pour extraire des boîtes englobantes 3D et des trajectoires de caméra à partir de données vidéo à grande échelle. Ce pipeline comprend les étapes suivantes :
- Segmentation d’Instance : Extraction des résultats de segmentation d’instance du premier plan vidéo.
- Estimation de Profondeur : Génération de cartes de profondeur métriques utilisant DepthAnything V2.
- Calcul de Nuage de Points 3D et de Boîtes : Calcul des nuages de points 3D pour chaque entité par projection inverse et calcul des boîtes englobantes 3D utilisant la méthode du volume minimal.
- Suivi d’Entité et Ajustement des Boîtes 3D : Calcul des boîtes englobantes 3D par image via le suivi de points et projection de la scène 3D entière sur les cartes de profondeur.
Performance Surpassant les Méthodes Existantes
CineMaster démontre d’excellentes performances dans de vastes expériences qualitatives et quantitatives, surpassant significativement les méthodes existantes, particulièrement dans trois scénarios : objets en mouvement avec caméras statiques, objets statiques avec caméras en mouvement, et objets en mouvement avec caméras en mouvement. CineMaster montre des capacités de contrôle supérieures en générant avec flexibilité diverses scènes complexes selon les exigences des utilisateurs.
Architecture Technique et Innovation
Le cadre de CineMaster adopte de manière innovante un ControlNet de Mise en Page Sémantique. Cette architecture inclut un Injecteur Sémantique et un ControlNet basé sur DiT. L’Injecteur Sémantique fusionne les mises en page spatiales 3D et les étiquettes de catégorie pour fournir les signaux de contrôle nécessaires. Le ControlNet basé sur DiT traite davantage ces caractéristiques et améliore les capacités de représentation du modèle. De plus, l’Adaptateur de Caméra injecte les trajectoires de caméra, permettant un contrôle conjoint du mouvement des objets et de la caméra.
CineMaster fournit aux créateurs une plateforme de génération de vidéo hautement flexible et contrôlable, apportant une liberté créative 3D sans précédent. Alors que la technologie continue d’itérer et de s’optimiser, CineMaster est positionné pour mener de nouvelles tendances dans la création et l’édition vidéo, offrant aux utilisateurs une expérience créative plus riche et plus raffinée.
État du Projet Open Source
- Aucun contenu open source disponible pour le moment
Liens CineMaster
Page du Projet : https://cinemaster-dev.github.io/ Article : https://arxiv.org/pdf/2502.08639