OpenMOSS publie MOVA - modèle de génération synchronisée vidéo et audio open source
Le 29 janvier 2026, l’équipe OpenMOSS de l’Académie Shanghai Chuangzhi, en collaboration avec MOSI Intelligence, a officiellement publié le modèle de génération vidéo et audio de bout en bout MOVA (MOSS Video and Audio). Le modèle génère vidéo et audio synchronisés en une seule inférence, évitant les problèmes d’accumulation d’erreurs des pipelines en cascade et atteignant des performances avancées en synchronisation labiale et effets sonores environnementaux.
Positionnement du Modèle
MOVA est un modèle fondamental conçu pour combler le manque audio dans le domaine de la génération vidéo open source. Grâce à la fusion de modalités de bout en bout, le modèle génère simultanément vidéo haute fidélité et audio synchronisé en un seul processus d’inférence, assurant un alignement parfait.
Architecture Technique
Architecture à Double Tour Asymétrique
MOVA adopte une architecture à double tour asymétrique, fusionnant des tours vidéo et audio pré-entraînées via un mécanisme d’attention croisée bidirectionnelle. Cette conception permet au modèle de maintenir une synchronisation étroite entre vidéo et audio pendant la génération.
Versions du Modèle
Le projet publie en open source deux versions de résolution :
- MOVA-360p : Adaptée pour l’inférence rapide et les environnements à ressources limitées
- MOVA-720p : Fournit une génération vidéo de résolution supérieure
Les deux versions supportent la génération de jusqu’à 8 secondes de contenu vidéo-audio.
Fonctionnalités Principales
Génération Bimodale Native
MOVA génère vidéo haute fidélité et audio synchronisé en une seule inférence, évitant les problèmes d’accumulation d’erreurs et de synchronisation des méthodes en cascade traditionnelles.
Synchronisation Labiale Précise
Le modèle démontre d’excellentes performances en synchronisation labiale multilingue. Dans l’évaluation Verse-Bench Set3 :
- Avec CFG double activé, score LSE-D de 7.094
- Score LSE-C de 7.452
Effets Sonores Conscients de l’Environnement
Le modèle peut générer des effets sonores environnementaux correspondants basés sur le contenu vidéo, incluant :
- Sons d’interaction physique (comme les sons de moteur de véhicule, sons de vent)
- Sons ambiants environnementaux (comme la réverbération de rue, sons de friction d’équipement)
- Retour sonore spatial et textural
Performance
Évaluation Verse-Bench
Le modèle a été évalué de manière complète sur le benchmark Verse-Bench :
- Alignement Audio-Vidéo : Évalué sur tous les sous-ensembles
- Synchronisation Labiale : Évalué sur Set3
- Qualité de la Parole : Évalué sur Set3
- Précision ASR : Évalué sur sous-ensemble multi-locuteurs
Évaluation Humaine
Le projet fournit des scores Elo et des données de taux de victoire comparant MOVA avec les modèles open source existants.
Performance d’Inférence
Pour générer une vidéo 360p de 8 secondes, benchmarks de performance sous différentes stratégies de déchargement :
- L’utilisation de VRAM varie selon la stratégie de déchargement
- Utilisation RAM hôte
- Temps d’étape matériel
La performance réelle peut varier selon la configuration matérielle.
Support Fine-tuning LoRA
MOVA fournit des scripts complets de fine-tuning LoRA, supportant plusieurs modes d’entraînement :
Configurations d’Entraînement (360p, vidéo 8 secondes)
- LoRA faibles ressources : Réduit les exigences VRAM
- LoRA accélérée : Améliore la vitesse d’entraînement
- LoRA accélérée + FSDP : Support d’entraînement distribué
Les données d’utilisation de pointe pour chaque mode incluent VRAM/GPU, RAM hôte et temps d’étape.
Scénarios d’Application
MOVA est adapté pour les scénarios suivants :
- Création de Contenu Vidéo-Audio : Générer du contenu vidéo avec audio synchronisé
- Synchronisation Labiale : Ajouter une synchronisation vocale précise aux vidéos
- Génération d’Effets Sonores : Générer des effets sonores conscients de l’environnement pour les vidéos
- Doublage Multilingue : Support de génération de synchronisation labiale multilingue
Entièrement Open Source
MOVA utilise la licence open source Apache-2.0, publiant entièrement :
- Poids du Modèle : Versions 360p et 720p
- Code d’Inférence : Implémentation complète d’inférence
- Pipeline d’Entraînement : Processus d’entraînement de bout en bout
- Scripts Fine-tuning LoRA : Support pour fine-tuning personnalisé
Cette stratégie open source full-stack permet à la communauté d’améliorer collaborativement le modèle et de faire avancer la technologie de génération vidéo-audio.
Signification Technique
Dans le contexte des technologies de pointe comme Sora 2 et Veo 3 se dirigeant vers le code source fermé, la publication open source de MOVA comble le vide dans les modèles fondamentaux de génération vidéo-audio open source. En fournissant des poids de modèle complets et du code d’entraînement, MOVA fournit à la communauté une base pour améliorer et personnaliser les capacités de génération vidéo-audio.
Liens Connexes
- Dépôt GitHub : https://github.com/OpenMOSS/MOVA
- Modèle HuggingFace : https://huggingface.co/OpenMOSS/MOVA
- Page d’Accueil du Projet : https://openmoss.github.io/MOVA/