Skip to content
Aidez ComfyUI Wiki à supprimer les publicités Devenir un Mécène
ActualitésKuaishou et PKU publient conjointement le modèle de génération vidéo Pyramidal Flow Matching

Kuaishou et PKU publient conjointement le modèle de génération vidéo Pyramidal Flow Matching

Récemment, les équipes de recherche de Kuaishou Technology et de l’Université de Pékin ont conjointement introduit un nouveau modèle de génération vidéo - Pyramidal Flow Matching. Ce modèle, basé sur la technologie de génération vidéo autorégressive par flow matching, peut produire du contenu vidéo de haute qualité et de longue durée, marquant une avancée significative dans le domaine de la génération vidéo.

Aperçu du modèle Pyramidal Flow Matching

Le modèle Pyramidal Flow Matching est un modèle de génération vidéo autorégressive efficace en termes d’entraînement, développé sur la base de la technologie de flow matching. Voici les principales caractéristiques de ce modèle :

  1. Données d’entraînement open-source : Le modèle a été entraîné exclusivement à l’aide de jeux de données open-source, utilisant un total de 20,7k heures de ressources de calcul GPU A100.
  2. Sortie haute résolution : Capable de générer des vidéos avec une résolution de 1280x768.
  3. Génération de longue durée : Supporte la génération de vidéos jusqu’à 10 secondes à 24 images par seconde.
  4. Échelle du modèle : Nombre total de paramètres de 2B (2 milliards).

Démonstration des capacités du modèle

Le modèle Pyramidal Flow Matching démontre diverses capacités de génération vidéo, y compris la génération de texte en vidéo et la génération de vidéo basée sur des images. Voici quelques exemples typiques :

1. Génération de texte en vidéo (1280x768, 10 secondes, 24FPS)

Le modèle peut générer des scènes vidéo réalistes basées sur des descriptions textuelles détaillées. Par exemple :

  • Description : “La belle ville enneigée de Tokyo est animée. La caméra se déplace à travers la rue animée de la ville, suivant plusieurs personnes profitant du beau temps neigeux et faisant des achats aux étals voisins.”

    Vidéo de la scène enneigée de Tokyo

  • Description : “Au crépuscule, une voiture roule sur l’autoroute, avec le rétroviseur reflétant un coucher de soleil coloré et un paysage serein.”

    Vidéo du coucher de soleil sur l'autoroute

2. Génération de texte en vidéo (1280x768, 5 secondes, 24FPS)

Le modèle peut également générer des clips vidéo plus courts mais riches en contenu :

  • Description : “Un chat réveille son propriétaire endormi, réclamant son petit-déjeuner.”

    Vidéo du chat réveillant son propriétaire

  • Description : “Une caméra drone tourne autour d’une belle église historique construite sur un promontoire rocheux le long de la côte amalfitaine, la vue met en valeur des détails architecturaux historiques et magnifiques ainsi que des chemins et patios en terrasses.”

    Vidéo de l'église de la côte amalfitaine

3. Génération de vidéo basée sur des images (1280x768, 5 secondes, 24FPS)

Le modèle a également la capacité de transformer des images statiques en vidéos dynamiques :

  • Description : “Une voiture roulant sur la route.”

    Vidéo de la voiture sur la route

  • Description : “Vol en FPV au-dessus de la Grande Muraille.”

    Vidéo du vol au-dessus de la Grande Muraille

Points techniques saillants

  1. Technologie de Flow Matching : Adopte le flow matching comme technologie centrale, améliorant la cohérence et le réalisme de la génération vidéo.
  2. Structure pyramidale : Utilise une structure pyramidale pour traiter l’information spatio-temporelle dans les vidéos, améliorant efficacement la qualité de génération.
  3. Entraînement efficace : Réalise une génération vidéo de haute qualité en utilisant uniquement des jeux de données open-source avec des ressources de calcul limitées.
  4. Sortie diversifiée : Supporte la génération vidéo dans diverses résolutions et durées, s’adaptant à différents scénarios d’application.

Applications potentielles

L’émergence du modèle Pyramidal Flow Matching apporte de nouvelles possibilités à de nombreux domaines :

  1. Production de contenu créatif : Fournit de nouveaux outils pour créer des publicités, des bandes-annonces de films et d’autres contenus créatifs.
  2. Éducation et formation : Génère rapidement des vidéos éducatives ou des scénarios simulés.
  3. Développement de jeux : Aide à créer des scènes et des animations de jeux.
  4. Réalité virtuelle : Génère un contenu visuel riche pour les applications VR/AR.

Conclusion

Le modèle Pyramidal Flow Matching, développé conjointement par Kuaishou Technology et l’Université de Pékin, représente la dernière avancée en matière de technologie de génération vidéo. En combinant le flow matching et la structure pyramidale, ce modèle peut générer du contenu vidéo de haute qualité et de longue durée, apportant de nouvelles possibilités au domaine de la génération vidéo par AI. À mesure que la technologie se développe et trouve des applications, nous pouvons nous attendre à voir plus de contenu vidéo impressionnant généré par AI.

Les lecteurs intéressés peuvent visiter le site officiel du projet pour en savoir plus et découvrir personnellement les puissantes capacités du modèle.