Publication Open Source d’InfiniteTalk - Technologie de génération vidéo pilotée par l’audio avec prise en charge d’une longueur illimitée
L’équipe MeiGen-AI a récemment publié en open source le modèle InfiniteTalk, un projet innovant qui permet la génération de vidéos pilotées par l’audio avec une prise en charge d’une longueur illimitée. Cette technologie permet non seulement une synchronisation labiale précise, mais maintient également des mouvements corporels et des expressions faciales stables, marquant une percée significative dans la technologie des humains numériques.
Caractéristiques principales
InfiniteTalk utilise un cadre de doublage vidéo à images éparses. Par rapport aux méthodes traditionnelles qui se concentrent uniquement sur la synchronisation labiale, cette technologie offre plusieurs avantages notables :
- Synchronisation labiale précise : Correspondance précise de la forme de la bouche avec l’audio
- Génération de longueur illimitée : Prise en charge de la génération de contenu vidéo ultra-long
- Synchronisation de mouvement corporel complet : Synchronisation de la tête, du corps et des expressions faciales en plus des lèvres
- Préservation stable de l’identité : Maintien de la cohérence de l’identité du personnage pendant la génération de longue durée
- Prise en charge multi-scénario : Compatible avec la conversion image-vidéo et vidéo-vidéo
Fonctionnalité principale
Génération de vidéo pilotée par l’audio
InfiniteTalk peut générer du contenu vidéo synchronisé avec des fichiers audio d’entrée. Que ce soit pour parler ou chanter, il produit des effets naturels de synchronisation labiale.
Prise en charge d’une longueur illimitée
Cette technologie dépasse les limites traditionnelles de longueur de génération vidéo, permettant théoriquement la création de vidéos de n’importe quelle longueur. Elle est particulièrement adaptée à la production de vidéos explicatives d’humains numériques de longue durée.
Prise en charge multi-résolution
Le modèle prend en charge les résolutions 480P et 720P, permettant aux utilisateurs de choisir la qualité de sortie appropriée selon leurs besoins.
Architecture technique
InfiniteTalk est basé sur le modèle Wan2.1, utilisant une technologie innovante de traitement d’images éparses pour une génération vidéo efficace. Le modèle utilise un mécanisme de fenêtre de contexte, avec un réglage par défaut de 81 images pour la fenêtre de contexte, qui est la technologie clé permettant la génération infinie.
Informations open source
Le projet InfiniteTalk a été publié en open source sur GitHub sous la licence Apache 2.0. Le projet inclut les poids complets du modèle, l’implémentation du code et la documentation, offrant aux chercheurs et développeurs une solution complète.