Aucun article pour le moment. Revenez plus tard !

Publication Open Source d’InfiniteTalk - Technologie de génération vidéo pilotée par l’audio avec prise en charge d’une longueur illimitée

Démo InfiniteTalk

L’équipe MeiGen-AI a récemment publié en open source le modèle InfiniteTalk, un projet innovant qui permet la génération de vidéos pilotées par l’audio avec une prise en charge d’une longueur illimitée. Cette technologie permet non seulement une synchronisation labiale précise, mais maintient également des mouvements corporels et des expressions faciales stables, marquant une percée significative dans la technologie des humains numériques.

Caractéristiques principales

InfiniteTalk utilise un cadre de doublage vidéo à images éparses. Par rapport aux méthodes traditionnelles qui se concentrent uniquement sur la synchronisation labiale, cette technologie offre plusieurs avantages notables :

Synchronisation labiale précise : Correspondance précise de la forme de la bouche avec l’audio
Génération de longueur illimitée : Prise en charge de la génération de contenu vidéo ultra-long
Synchronisation de mouvement corporel complet : Synchronisation de la tête, du corps et des expressions faciales en plus des lèvres
Préservation stable de l’identité : Maintien de la cohérence de l’identité du personnage pendant la génération de longue durée
Prise en charge multi-scénario : Compatible avec la conversion image-vidéo et vidéo-vidéo

Fonctionnalité principale

Génération de vidéo pilotée par l’audio

InfiniteTalk peut générer du contenu vidéo synchronisé avec des fichiers audio d’entrée. Que ce soit pour parler ou chanter, il produit des effets naturels de synchronisation labiale.

Prise en charge d’une longueur illimitée

Cette technologie dépasse les limites traditionnelles de longueur de génération vidéo, permettant théoriquement la création de vidéos de n’importe quelle longueur. Elle est particulièrement adaptée à la production de vidéos explicatives d’humains numériques de longue durée.

Prise en charge multi-résolution

Le modèle prend en charge les résolutions 480P et 720P, permettant aux utilisateurs de choisir la qualité de sortie appropriée selon leurs besoins.

Architecture technique

InfiniteTalk est basé sur le modèle Wan2.1, utilisant une technologie innovante de traitement d’images éparses pour une génération vidéo efficace. Le modèle utilise un mécanisme de fenêtre de contexte, avec un réglage par défaut de 81 images pour la fenêtre de contexte, qui est la technologie clé permettant la génération infinie.

Informations open source

Le projet InfiniteTalk a été publié en open source sur GitHub sous la licence Apache 2.0. Le projet inclut les poids complets du modèle, l’implémentation du code et la documentation, offrant aux chercheurs et développeurs une solution complète.