ByteDance Open Source LatentSync - Une technologie de synchronisation labiale de haute précision basée sur un modèle de diffusion
ByteDance a récemment mis en open source sur GitHub un outil innovant de synchronisation labiale appelé LatentSync. Ce framework de synchronisation labiale de bout en bout, basé sur un modèle de diffusion d’espace latent conditionné par l’audio, permet non seulement une synchronisation audio-visuelle de haute précision, mais résout également les problèmes de scintillement d’images courants dans les méthodes traditionnelles.
Innovations Techniques
Les principales innovations techniques de LatentSync comprennent :
-
Modèle de diffusion d’espace latent de bout en bout
- Pas besoin de représentations de mouvement intermédiaires
- Modélisation directe des relations audio-visuelles complexes dans l’espace latent
- Exploite les puissantes capacités de Stable Diffusion
-
Optimisation de la cohérence temporelle
- Introduction de la technologie innovante d’alignement des représentations temporelles (TREPA)
- Utilisation de modèles vidéo auto-supervisés à grande échelle pour l’extraction de caractéristiques temporelles
- Améliore efficacement la cohérence temporelle des vidéos générées
Chaîne d’outils complète
LatentSync fournit une chaîne complète de traitement vidéo :
-
Outils de prétraitement
- Rééchantillonnage de la fréquence d’images vidéo (25fps)
- Rééchantillonnage audio (16000Hz)
- Détection et segmentation de scènes
- Détection et alignement des visages
-
Assurance qualité
- Vérification de la taille et du nombre de visages
- Évaluation de la confiance de synchronisation audio-visuelle
- Évaluation de la qualité d’image hyperIQA
Large applicabilité
LatentSync démontre une excellente polyvalence :
- Vidéos de personnes réelles : Capture et reproduit précisément les mouvements labiaux humains
- Personnages animés : Également applicable à la synchronisation labiale des personnages animés
- Faibles exigences en ressources : Nécessite seulement environ 6,5 Go de VRAM pour l’inférence
Open Source et Communauté
Le projet est open source sur GitHub, fournissant :
- Code d’inférence et modèles pré-entraînés
- Processus complet de traitement des données
- Code d’entraînement et fichiers de configuration
Perspectives d’application
Le lancement de LatentSync ouvre de nouvelles possibilités dans le domaine de la production vidéo :
- Post-production vidéo
- Localisation du doublage multilingue
- Génération de contenu pour présentateurs virtuels
- Production de vidéos éducatives