Aucun article pour le moment. Revenez plus tard !

Lancement de SkyReels-V2 : Modèle open-source supportant la génération de vidéos de longueur infinie

SkyReels Logo

L’équipe SkyworkAI a récemment lancé un nouveau modèle de génération vidéo, SkyReels-V2, un projet open-source révolutionnaire capable de générer des vidéos de qualité cinématographique d’une longueur théoriquement infinie. Le modèle utilise un cadre innovant de “Forçage de Diffusion” (Diffusion Forcing) et prend en charge à la fois les méthodes de génération de texte vers vidéo (T2V) et d’image vers vidéo (I2V).

Caractéristiques principales

SkyReels-V2 apporte de multiples innovations dans le domaine de la génération vidéo :

Génération de vidéos de longueur infinie : Grâce à la technologie de forçage de diffusion, le modèle peut générer des vidéos d’une longueur théoriquement illimitée
Support d’entrée multimodale : Compatible avec les fonctionnalités de texte vers vidéo et d’image vers vidéo
Résultats visuels de haute qualité : Dans les évaluations humaines, ses performances visuelles se rapprochent des modèles commerciaux propriétaires comme Kling-1.6 et Runway Gen-4
Entièrement open-source et adapté à l’usage commercial : Le code et les poids du modèle sont open-source et disponibles pour des projets commerciaux
Modèle de sous-titrage vidéo : Inclut également SkyCaptioner-V1, un modèle spécialisé pour la compréhension vidéo

Séries de modèles

SkyReels-V2 propose plusieurs variantes de modèles avec différentes tailles et résolutions :

Modèles de Forçage de Diffusion (DF) : Spécifiquement conçus pour la génération de vidéos de longueur infinie, disponibles en versions 1.3B-540P et 14B-720P
Modèles de Texte vers Vidéo (T2V) : Axés sur la génération de vidéos de haute qualité à partir d’invites textuelles
Modèles d’Image vers Vidéo (I2V) : Capables de générer des séquences vidéo cohérentes à partir d’images d’entrée

Points techniques forts

SkyReels-V2 emploie plusieurs technologies avancées :

Sous-titreur vidéo (SkyCaptioner-V1) : Affiné à partir du modèle Qwen2.5-VL-7B-Instruct, surpassant significativement les modèles existants dans la compréhension du contenu vidéo
Apprentissage par renforcement : Optimise la qualité du mouvement pour résoudre les problèmes liés aux mouvements de grande ampleur et déformables, ainsi que la conformité aux lois physiques
Forçage de Diffusion : Une stratégie innovante d’entraînement et d’échantillonnage permettant des niveaux de bruit indépendants pour chaque token
Ajustement fin supervisé de haute qualité : Améliore la qualité visuelle grâce à un processus d’ajustement fin en deux étapes

Performance

Dans les évaluations humaines, SkyReels-V2 a obtenu d’excellents résultats en termes de respect des instructions, de cohérence et de qualité visuelle :

Dans les tâches de texte vers vidéo, SkyReels-V2 a obtenu un score moyen de 3.14, surpassant d’autres modèles open-source, y compris Wan2.1-14B
Dans les tâches d’image vers vidéo, SkyReels-V2-I2V a obtenu un score moyen de 3.29, se rapprochant des performances des modèles commerciaux fermés

Exigences matérielles

Notez que SkyReels-V2 a des exigences matérielles relativement élevées :

La génération de vidéo 540P avec le modèle 1.3B nécessite environ 14.7GB de VRAM
La génération de vidéo 540P avec le modèle 14B nécessite environ 43.4GB de VRAM
La génération de vidéos longues ou de résolutions plus élevées nécessitera des ressources supplémentaires

Liens pertinents

Le lancement de SkyReels-V2 représente une avancée significative dans la génération vidéo par IA, particulièrement dans la synthèse de vidéos de longue durée, offrant aux créateurs et aux développeurs de nouvelles possibilités. Avec la sortie prévue de modèles supplémentaires de la série 5B et de modèles de directeur de caméra, nous pouvons nous attendre à d’autres innovations de cette technologie à l’avenir.

RunComfy

Comfy Deploy

Comfy Online

Comfy.ICU

InstaSD