Aucun article pour le moment. Revenez plus tard !

ByteDance Open Source LatentSync - Une technologie de synchronisation labiale de haute précision basée sur un modèle de diffusion

ByteDance a récemment mis en open source sur GitHub un outil innovant de synchronisation labiale appelé LatentSync. Ce framework de synchronisation labiale de bout en bout, basé sur un modèle de diffusion d’espace latent conditionné par l’audio, permet non seulement une synchronisation audio-visuelle de haute précision, mais résout également les problèmes de scintillement d’images courants dans les méthodes traditionnelles.

Innovations Techniques

Les principales innovations techniques de LatentSync comprennent :

Modèle de diffusion d’espace latent de bout en bout
- Pas besoin de représentations de mouvement intermédiaires
- Modélisation directe des relations audio-visuelles complexes dans l’espace latent
- Exploite les puissantes capacités de Stable Diffusion
Optimisation de la cohérence temporelle
- Introduction de la technologie innovante d’alignement des représentations temporelles (TREPA)
- Utilisation de modèles vidéo auto-supervisés à grande échelle pour l’extraction de caractéristiques temporelles
- Améliore efficacement la cohérence temporelle des vidéos générées

Chaîne d’outils complète

LatentSync fournit une chaîne complète de traitement vidéo :

Outils de prétraitement
- Rééchantillonnage de la fréquence d’images vidéo (25fps)
- Rééchantillonnage audio (16000Hz)
- Détection et segmentation de scènes
- Détection et alignement des visages
Assurance qualité
- Vérification de la taille et du nombre de visages
- Évaluation de la confiance de synchronisation audio-visuelle
- Évaluation de la qualité d’image hyperIQA

Large applicabilité

LatentSync démontre une excellente polyvalence :

Vidéos de personnes réelles : Capture et reproduit précisément les mouvements labiaux humains
Personnages animés : Également applicable à la synchronisation labiale des personnages animés
Faibles exigences en ressources : Nécessite seulement environ 6,5 Go de VRAM pour l’inférence

Open Source et Communauté

Le projet est open source sur GitHub, fournissant :

Code d’inférence et modèles pré-entraînés
Processus complet de traitement des données
Code d’entraînement et fichiers de configuration

Perspectives d’application

Le lancement de LatentSync ouvre de nouvelles possibilités dans le domaine de la production vidéo :

Post-production vidéo
Localisation du doublage multilingue
Génération de contenu pour présentateurs virtuels
Production de vidéos éducatives