OpenMOSS lanza MOVA - modelo de generación sincronizada de video y audio de código abierto

El 29 de enero de 2026, el equipo OpenMOSS de la Academia Shanghai Chuangzhi, en colaboración con MOSI Intelligence, lanzó oficialmente el modelo de generación de video y audio de extremo a extremo MOVA (MOSS Video and Audio). El modelo genera video y audio sincronizados en una sola inferencia, evitando problemas de acumulación de errores de pipelines en cascada y logrando un rendimiento avanzado en sincronización labial y efectos de sonido ambientales.

Posicionamiento del Modelo

MOVA es un modelo fundacional diseñado para abordar la brecha de audio en la generación de video de código abierto. A través de la fusión de modalidades de extremo a extremo, el modelo genera simultáneamente video de alta fidelidad y audio sincronizado en un solo proceso de inferencia, asegurando alineación perfecta.

Arquitectura Técnica

Arquitectura de Doble Torre Asimétrica

MOVA adopta una arquitectura de doble torre asimétrica, fusionando torres de video y audio pre-entrenadas a través de un mecanismo de atención cruzada bidireccional. Este diseño permite al modelo mantener una sincronización estrecha entre video y audio durante la generación.

Versiones del Modelo

El proyecto publica dos versiones de resolución:

MOVA-360p: Adecuada para inferencia rápida y entornos con recursos limitados
MOVA-720p: Proporciona generación de video de mayor resolución

Ambas versiones soportan la generación de hasta 8 segundos de contenido video-audio.

Características Principales

Generación Bimodal Nativa

MOVA genera video de alta fidelidad y audio sincronizado en una sola inferencia, evitando problemas de acumulación de errores y sincronización de métodos en cascada tradicionales.

Sincronización Labial Precisa

El modelo demuestra un excelente rendimiento en la sincronización labial multilingüe. En la evaluación de Verse-Bench Set3:

Con CFG dual habilitado, puntuación LSE-D de 7.094
Puntuación LSE-C de 7.452

Efectos de Sonido Conscientes del Entorno

El modelo puede generar efectos de sonido ambientales correspondientes basados en el contenido del video, incluyendo:

Sonidos de interacción física (como sonidos de motor de vehículos, sonidos de viento)
Sonidos ambientales (como reverberación de calles, sonidos de fricción de equipos)
Retroalimentación de sonido espacial y textural

Rendimiento

Evaluación Verse-Bench

El modelo fue evaluado exhaustivamente en el benchmark Verse-Bench:

Alineación Audio-Video: Evaluado en todos los subconjuntos
Sincronización Labial: Evaluado en Set3
Calidad del Habla: Evaluado en Set3
Precisión ASR: Evaluado en subconjunto de múltiples hablantes

Evaluación Humana

El proyecto proporciona puntuaciones Elo y datos de tasa de victorias comparando MOVA con modelos de código abierto existentes.

Rendimiento de Inferencia

Para generar un video de 360p de 8 segundos, benchmarks de rendimiento bajo diferentes estrategias de descarga:

El uso de VRAM varía según la estrategia de descarga
Uso de RAM del host
Tiempo de paso del hardware

El rendimiento real puede variar dependiendo de la configuración del hardware.

Soporte de Fine-tuning LoRA

MOVA proporciona scripts completos de fine-tuning LoRA, soportando múltiples modos de entrenamiento:

Configuraciones de Entrenamiento (360p, video de 8 segundos)

LoRA de bajos recursos: Reduce los requisitos de VRAM
LoRA acelerada: Mejora la velocidad de entrenamiento
LoRA acelerada + FSDP: Soporte de entrenamiento distribuido

Los datos de uso pico para cada modo incluyen VRAM/GPU, RAM del host y tiempo de paso.

Escenarios de Aplicación

MOVA es adecuado para los siguientes escenarios:

Creación de Contenido Video-Audio: Generar contenido de video con audio sincronizado
Sincronización Labial: Añadir sincronización de habla precisa a videos
Generación de Efectos de Sonido: Generar efectos de sonido conscientes del entorno para videos
Doblaje Multilingüe: Soporte de generación de sincronización labial multilingüe

Completamente de Código Abierto

MOVA utiliza la licencia de código abierto Apache-2.0, liberando completamente:

Pesos del Modelo: Ambas versiones 360p y 720p
Código de Inferencia: Implementación completa de inferencia
Pipeline de Entrenamiento: Proceso de entrenamiento de extremo a extremo
Scripts de Fine-tuning LoRA: Soporte para fine-tuning personalizado

Esta estrategia de código abierto de pila completa permite a la comunidad colaborativamente mejorar el modelo y avanzar la tecnología de generación video-audio.

Significado Técnico

Contra el telón de fondo de tecnologías superiores como Sora 2 y Veo 3 moviéndose hacia código cerrado, el lanzamiento de código abierto de MOVA llena el vacío en modelos fundacionales de generación video-audio de código abierto. Al proporcionar pesos de modelo completos y código de entrenamiento, MOVA proporciona a la comunidad una base para mejorar y personalizar capacidades de generación video-audio.

Enlaces Relacionados

Repositorio GitHub: https://github.com/OpenMOSS/MOVA
Modelo HuggingFace: https://huggingface.co/OpenMOSS/MOVA
Página Principal del Proyecto: https://openmoss.github.io/MOVA/