OpenMOSS lanza MOVA - modelo de generación sincronizada de video y audio de código abierto
29/01/2026
OpenMOSS lanza MOVA - modelo de generación sincronizada de video y audio de código abierto
El 29 de enero de 2026, el equipo OpenMOSS de la Academia Shanghai Chuangzhi, en colaboración con MOSI Intelligence, lanzó oficialmente el modelo de generación de video y audio de extremo a extremo MOVA (MOSS Video and Audio). El modelo genera video y audio sincronizados en una sola inferencia, evitando problemas de acumulación de errores de pipelines en cascada y logrando un rendimiento avanzado en sincronización labial y efectos de sonido ambientales.
Posicionamiento del Modelo
MOVA es un modelo fundacional diseñado para abordar la brecha de audio en la generación de video de código abierto. A través de la fusión de modalidades de extremo a extremo, el modelo genera simultáneamente video de alta fidelidad y audio sincronizado en un solo proceso de inferencia, asegurando alineación perfecta.
Arquitectura Técnica
Arquitectura de Doble Torre Asimétrica
MOVA adopta una arquitectura de doble torre asimétrica, fusionando torres de video y audio pre-entrenadas a través de un mecanismo de atención cruzada bidireccional. Este diseño permite al modelo mantener una sincronización estrecha entre video y audio durante la generación.
Versiones del Modelo
El proyecto publica dos versiones de resolución:
- MOVA-360p: Adecuada para inferencia rápida y entornos con recursos limitados
- MOVA-720p: Proporciona generación de video de mayor resolución
Ambas versiones soportan la generación de hasta 8 segundos de contenido video-audio.
Características Principales
Generación Bimodal Nativa
MOVA genera video de alta fidelidad y audio sincronizado en una sola inferencia, evitando problemas de acumulación de errores y sincronización de métodos en cascada tradicionales.
Sincronización Labial Precisa
El modelo demuestra un excelente rendimiento en la sincronización labial multilingüe. En la evaluación de Verse-Bench Set3:
- Con CFG dual habilitado, puntuación LSE-D de 7.094
- Puntuación LSE-C de 7.452
Efectos de Sonido Conscientes del Entorno
El modelo puede generar efectos de sonido ambientales correspondientes basados en el contenido del video, incluyendo:
- Sonidos de interacción física (como sonidos de motor de vehículos, sonidos de viento)
- Sonidos ambientales (como reverberación de calles, sonidos de fricción de equipos)
- Retroalimentación de sonido espacial y textural
Rendimiento
Evaluación Verse-Bench
El modelo fue evaluado exhaustivamente en el benchmark Verse-Bench:
- Alineación Audio-Video: Evaluado en todos los subconjuntos
- Sincronización Labial: Evaluado en Set3
- Calidad del Habla: Evaluado en Set3
- Precisión ASR: Evaluado en subconjunto de múltiples hablantes
Evaluación Humana
El proyecto proporciona puntuaciones Elo y datos de tasa de victorias comparando MOVA con modelos de código abierto existentes.
Rendimiento de Inferencia
Para generar un video de 360p de 8 segundos, benchmarks de rendimiento bajo diferentes estrategias de descarga:
- El uso de VRAM varía según la estrategia de descarga
- Uso de RAM del host
- Tiempo de paso del hardware
El rendimiento real puede variar dependiendo de la configuración del hardware.
Soporte de Fine-tuning LoRA
MOVA proporciona scripts completos de fine-tuning LoRA, soportando múltiples modos de entrenamiento:
Configuraciones de Entrenamiento (360p, video de 8 segundos)
- LoRA de bajos recursos: Reduce los requisitos de VRAM
- LoRA acelerada: Mejora la velocidad de entrenamiento
- LoRA acelerada + FSDP: Soporte de entrenamiento distribuido
Los datos de uso pico para cada modo incluyen VRAM/GPU, RAM del host y tiempo de paso.
Escenarios de Aplicación
MOVA es adecuado para los siguientes escenarios:
- Creación de Contenido Video-Audio: Generar contenido de video con audio sincronizado
- Sincronización Labial: Añadir sincronización de habla precisa a videos
- Generación de Efectos de Sonido: Generar efectos de sonido conscientes del entorno para videos
- Doblaje Multilingüe: Soporte de generación de sincronización labial multilingüe
Completamente de Código Abierto
MOVA utiliza la licencia de código abierto Apache-2.0, liberando completamente:
- Pesos del Modelo: Ambas versiones 360p y 720p
- Código de Inferencia: Implementación completa de inferencia
- Pipeline de Entrenamiento: Proceso de entrenamiento de extremo a extremo
- Scripts de Fine-tuning LoRA: Soporte para fine-tuning personalizado
Esta estrategia de código abierto de pila completa permite a la comunidad colaborativamente mejorar el modelo y avanzar la tecnología de generación video-audio.
Significado Técnico
Contra el telón de fondo de tecnologías superiores como Sora 2 y Veo 3 moviéndose hacia código cerrado, el lanzamiento de código abierto de MOVA llena el vacío en modelos fundacionales de generación video-audio de código abierto. Al proporcionar pesos de modelo completos y código de entrenamiento, MOVA proporciona a la comunidad una base para mejorar y personalizar capacidades de generación video-audio.
Enlaces Relacionados
- Repositorio GitHub: https://github.com/OpenMOSS/MOVA
- Modelo HuggingFace: https://huggingface.co/OpenMOSS/MOVA
- Página Principal del Proyecto: https://openmoss.github.io/MOVA/