Skip to content
Aidez à Construire une Meilleure Base de Connaissances ComfyUI Devenir Parrain
ActualitésByteDance lance Seaweed-7B : Un modèle de génération vidéo économique
Aucun article pour le moment. Revenez plus tard !

ByteDance lance Seaweed-7B : Un modèle de génération vidéo économique

ByteDance a récemment annoncé une avancée majeure dans le domaine de la génération vidéo — Seaweed-7B, un modèle fondamental de génération vidéo qui, avec seulement 7 milliards de paramètres, offre des performances exceptionnelles. Selon le rapport technique officiel, ce modèle surpasse les modèles courants ayant deux fois plus de paramètres sur les tâches principales, tout en nécessitant seulement environ un tiers du coût de formation.

Performance et efficacité révolutionnaires

Seaweed-7B (dérivé de “Seed-Video”) démontre des performances impressionnantes à travers plusieurs indicateurs clés :

  • Échelle des paramètres : Avec seulement 7 milliards de paramètres, il surpasse le modèle Wan 2.1 qui en compte 14 milliards
  • Coût de formation : Formation complétée avec 665 000 heures de GPU H100, alors que les modèles similaires nécessitent généralement plus de 2 millions d’heures de GPU
  • Vitesse d’inférence : Capable de générer des vidéos 720p à 24 images par seconde en temps réel, 62 fois plus rapidement que les modèles comparables
  • Besoins en ressources : Nécessite seulement 40 Go de VRAM pour prendre en charge la génération en résolution 1280×720, le rendant accessible aux équipes petites et moyennes

Dans les évaluations de génération d’image en vidéo, Seaweed-7B a obtenu un score Elo de 1047 avec un taux de victoire de 58%, contre seulement 53% pour Wan 2.1 (14 milliards de paramètres) et 36% pour Sora.

Trois innovations techniques majeures

L’efficacité économique de Seaweed-7B repose sur trois innovations techniques clés :

1. Technologie de raffinage des données

L’équipe de ByteDance a développé un pipeline de nettoyage de données en 6 étapes qui utilise la segmentation temporo-spatiale, le filtrage qualitatif et l’amélioration synthétique pour réduire la proportion de données inefficaces de 42% à 2,9%, augmentant les données d’entraînement efficaces à 97,1% et améliorant l’efficacité d’utilisation des données par 4 avec la même puissance de calcul.

2. Conception architecturale innovante

Le modèle utilise un VAE à taux de compression 64× et une architecture Transformer à flux hybride :

  • Conception VAE : Abandonne la compression traditionnelle basée sur les patchs au profit d’une architecture convolutive 3D causale, assurant une reconstruction haute définition 720p tout en améliorant la vitesse de convergence du modèle de 30%
  • Optimisation du Transformer : L’architecture innovante de Diffusion à flux hybride partage 2/3 des paramètres du réseau feed-forward, réduisant les calculs de 20% par rapport aux architectures à double flux

3. Stratégie de formation progressive

La formation du modèle est divisée en quatre étapes :

  1. Fondation d’image (256p) : Commencer par des images statiques pour construire une base visuelle solide
  2. Initiation à la vidéo courte (360p) : Traitement de séquences courtes de 3 à 5 secondes, en se concentrant sur la cohérence des actions
  3. Percée haute définition (720p) : Optimisation des détails haute résolution, augmentation des tâches texte-à-vidéo à 80%
  4. Ajustement post-traitement : Amélioration des effets esthétiques via SFT, optimisation de la structure de mouvement avec RLHF pour éviter les mouvements non naturels

Large éventail d’applications

En tant que modèle fondamental, Seaweed-7B prend en charge plusieurs applications en aval :

  • Génération d’image en vidéo : Création de vidéos cohérentes à partir d’images uniques ou des premières et dernières images
  • Génération de vidéos humaines : Génération de personnages humains réalistes avec des actions et expressions diverses
  • Génération conjointe audio-vidéo : Génération simultanée de contenu audio et vidéo correspondant
  • Vidéos longues et narration : Prise en charge de vidéos à plan unique jusqu’à une minute et narration longue à plans multiples
  • Génération en temps réel : Génération de vidéos 720p à 24 images par seconde en temps réel
  • Génération super-résolution : Conversion des vidéos à la résolution 2K QHD (2560×1440)
  • Génération contrôlée par caméra : Implémentation d’un contrôle précis de la caméra via des trajectoires définies pour l’exploration interactive du monde

Cohérence physique améliorée

Grâce à un post-entraînement sur des vidéos synthétiques rendues par CGI, Seaweed-7B améliore également la cohérence physique dans la génération vidéo tout en maintenant une qualité photoréaliste, rendant les actions complexes et les scènes 3D plus naturelles et réalistes.

Liens connexes