Lancement de SkyReels-V2 : Modèle open-source supportant la génération de vidéos de longueur infinie
L’équipe SkyworkAI a récemment lancé un nouveau modèle de génération vidéo, SkyReels-V2, un projet open-source révolutionnaire capable de générer des vidéos de qualité cinématographique d’une longueur théoriquement infinie. Le modèle utilise un cadre innovant de “Forçage de Diffusion” (Diffusion Forcing) et prend en charge à la fois les méthodes de génération de texte vers vidéo (T2V) et d’image vers vidéo (I2V).
Caractéristiques principales
SkyReels-V2 apporte de multiples innovations dans le domaine de la génération vidéo :
- Génération de vidéos de longueur infinie : Grâce à la technologie de forçage de diffusion, le modèle peut générer des vidéos d’une longueur théoriquement illimitée
- Support d’entrée multimodale : Compatible avec les fonctionnalités de texte vers vidéo et d’image vers vidéo
- Résultats visuels de haute qualité : Dans les évaluations humaines, ses performances visuelles se rapprochent des modèles commerciaux propriétaires comme Kling-1.6 et Runway Gen-4
- Entièrement open-source et adapté à l’usage commercial : Le code et les poids du modèle sont open-source et disponibles pour des projets commerciaux
- Modèle de sous-titrage vidéo : Inclut également SkyCaptioner-V1, un modèle spécialisé pour la compréhension vidéo
Séries de modèles
SkyReels-V2 propose plusieurs variantes de modèles avec différentes tailles et résolutions :
- Modèles de Forçage de Diffusion (DF) : Spécifiquement conçus pour la génération de vidéos de longueur infinie, disponibles en versions 1.3B-540P et 14B-720P
- Modèles de Texte vers Vidéo (T2V) : Axés sur la génération de vidéos de haute qualité à partir d’invites textuelles
- Modèles d’Image vers Vidéo (I2V) : Capables de générer des séquences vidéo cohérentes à partir d’images d’entrée
Points techniques forts
SkyReels-V2 emploie plusieurs technologies avancées :
- Sous-titreur vidéo (SkyCaptioner-V1) : Affiné à partir du modèle Qwen2.5-VL-7B-Instruct, surpassant significativement les modèles existants dans la compréhension du contenu vidéo
- Apprentissage par renforcement : Optimise la qualité du mouvement pour résoudre les problèmes liés aux mouvements de grande ampleur et déformables, ainsi que la conformité aux lois physiques
- Forçage de Diffusion : Une stratégie innovante d’entraînement et d’échantillonnage permettant des niveaux de bruit indépendants pour chaque token
- Ajustement fin supervisé de haute qualité : Améliore la qualité visuelle grâce à un processus d’ajustement fin en deux étapes
Performance
Dans les évaluations humaines, SkyReels-V2 a obtenu d’excellents résultats en termes de respect des instructions, de cohérence et de qualité visuelle :
- Dans les tâches de texte vers vidéo, SkyReels-V2 a obtenu un score moyen de 3.14, surpassant d’autres modèles open-source, y compris Wan2.1-14B
- Dans les tâches d’image vers vidéo, SkyReels-V2-I2V a obtenu un score moyen de 3.29, se rapprochant des performances des modèles commerciaux fermés
Exigences matérielles
Notez que SkyReels-V2 a des exigences matérielles relativement élevées :
- La génération de vidéo 540P avec le modèle 1.3B nécessite environ 14.7GB de VRAM
- La génération de vidéo 540P avec le modèle 14B nécessite environ 43.4GB de VRAM
- La génération de vidéos longues ou de résolutions plus élevées nécessitera des ressources supplémentaires
Liens pertinents
Le lancement de SkyReels-V2 représente une avancée significative dans la génération vidéo par IA, particulièrement dans la synthèse de vidéos de longue durée, offrant aux créateurs et aux développeurs de nouvelles possibilités. Avec la sortie prévue de modèles supplémentaires de la série 5B et de modèles de directeur de caméra, nous pouvons nous attendre à d’autres innovations de cette technologie à l’avenir.