Aucun article pour le moment. Revenez plus tard !

TTT-Video : Une nouvelle approche pour la génération de vidéos longues

Des chercheurs ont récemment lancé un projet open-source appelé TTT-Video, une technologie qui dépasse les limitations temporelles traditionnelles de la génération vidéo par IA, capable de produire un contenu vidéo cohérent jusqu’à 63 secondes. Cette technologie résout les problèmes de cohérence du contenu dans la génération de vidéos longues grâce à la méthode innovante de Test-Time Training (Entraînement en Temps de Test).

Relever les défis clés de la génération vidéo

Actuellement, la plupart des modèles de génération vidéo par IA ne peuvent créer que des clips vidéo courts de 3 à 5 secondes. Cela est dû au fait que les modèles Transformer utilisés pour la génération vidéo ont des coûts de calcul qui augmentent de façon quadratique lors du traitement de longues séquences en raison de leur mécanisme d’auto-attention, ce qui rend inefficace le traitement de vidéos longues.

TTT-Video résout ce problème de manière innovante : il conserve les couches d’attention du modèle préentraîné original pour l’attention locale sur chaque segment de 3 secondes, tout en introduisant des couches spéciales de Test-Time Training pour gérer les relations à longue distance dans le contexte global.

Implémentation technique

Le projet est basé sur le modèle CogVideoX 5B (un Transformer de diffusion pour la génération de texte vers vidéo) avec des innovations clés comprenant :

Introduction de couches TTT pour traiter la séquence globale et sa version inversée, combinant les sorties via des connexions résiduelles à portes
Extension du contexte en entrelaçant chaque segment avec des embeddings de texte et de vidéo
Entraînement par étapes : d’abord affinage à la durée originale préentraînée de 3 secondes, puis entraînement progressif à des durées vidéo de 9, 18, 30 et 63 secondes

Architecture du modèle TTT-Video

Architecture du modèle TTT-Video : Traitement des séquences globales via des couches TTT combinées à des mécanismes d’attention locale

L’équipe de recherche a utilisé le dessin animé classique “Tom et Jerry” comme cas de test, générant des vidéos animées styliquement cohérentes d’environ une minute, bien que limitées par la taille de 5B paramètres, il y a encore une marge d’amélioration dans la qualité de génération.

Résultats de génération impressionnants

L’aspect le plus impressionnant de TTT-Video est sa capacité à générer des animations de style “Tom et Jerry” d’une durée allant jusqu’à une minute en un seul passage, avec :

Aucun besoin d’édition, de raccord ou de post-traitement
Un contenu entièrement original, avec des scènes qui n’existent pas dans le dessin animé original
Des actions de personnages, des transitions de scènes et des intrigues cohérentes

Exemple de vidéo générée dans le style Tom et Jerry

Images d’animation générées par TTT-Video dans le style Tom et Jerry

Importance pour les créateurs d’IA

Cette technologie signifie ce qui suit pour les créateurs d’IA utilisant des outils comme ComfyUI :

Le potentiel pour une génération de vidéos IA plus longues et plus narratives à l’avenir
Des solutions aux problèmes clés de cohérence dans la génération vidéo
La possibilité pour les créateurs de créer du contenu vidéo plus long sans avoir à raccorder manuellement plusieurs segments

RunningHub

RunComfy

Comfy Deploy

Comfy Online

Comfy.ICU

InstaSD

TTT-Video : Une nouvelle approche pour la génération de vidéos longues

Relever les défis clés de la génération vidéo

Implémentation technique

Résultats de génération impressionnants

Importance pour les créateurs d’IA

Liens connexes