OpenMOSS выпускает MOVA - модель синхронизированной генерации видео и аудио с открытым исходным кодом

29 января 2026 года команда OpenMOSS из Шанхайской академии Чуанчжи совместно с MOSI Intelligence официально выпустила модель сквозной генерации видео и аудио MOVA (MOSS Video and Audio). Модель синхронно генерирует видео и аудио за один проход вывода, избегая проблем накопления ошибок каскадных конвейеров и достигая передовых показателей в синхронизации губ и экологических звуковых эффектов.

Позиционирование модели

MOVA - это фундаментальная модель, разработанная для решения проблемы отсутствия аудио в области генерации видео с открытым исходным кодом. Благодаря сквозному слиянию модальностей, модель одновременно генерирует видео высокой точности и синхронизированное аудио в одном процессе вывода, обеспечивая идеальное выравнивание.

Техническая архитектура

Асимметричная двухбашенная архитектура

MOVA использует асимметричную двухбашенную архитектуру, объединяя предварительно обученные видео- и аудио-башни через механизм двунаправленного перекрестного внимания. Эта конструкция позволяет модели поддерживать тесную синхронизацию между видео и аудио во время генерации.

Версии модели

Проект открыл две версии разрешения:

MOVA-360p: Подходит для быстрого вывода и сред с ограниченными ресурсами
MOVA-720p: Обеспечивает генерацию видео более высокого разрешения

Обе версии поддерживают генерацию до 8 секунд видео-аудиоконтента.

Основные функции

Нативная бимодальная генерация

MOVA генерирует видео высокой точности и синхронизированное аудио за один проход вывода, избегая проблем накопления ошибок и синхронизации традиционных каскадных методов.

Точная синхронизация губ

Модель демонстрирует превосходные показатели в многоязычной синхронизации губ. В оценке Verse-Bench Set3:

При включенном двойном CFG, оценка LSE-D 7.094
Оценка LSE-C 7.452

Осознанные окружением звуковые эффекты

Модель может генерировать соответствующие экологические звуковые эффекты на основе видеоконтента, включая:

Звуки физического взаимодействия (такие как звуки двигателей транспортных средств, звуки ветра)
Окружающие амбиентные звуки (такие как реверберация улиц, звуки трения оборудования)
Пространственная и текстурная звуковая обратная связь

Производительность

Оценка Verse-Bench

Модель была всесторонне оценена на бенчмарке Verse-Bench:

Выравнивание аудио-видео: Оценивается на всех подмножествах
Синхронизация губ: Оценивается на Set3
Качество речи: Оценивается на Set3
Точность ASR: Оценивается на подмножестве с несколькими говорящими

Человеческая оценка

Проект предоставляет оценки Elo и данные о проценте побед, сравнивая MOVA с существующими моделями с открытым исходным кодом.

Производительность вывода

Для генерации 8-секундного видео 360p, бенчмарки производительности при различных стратегиях выгрузки:

Использование VRAM варьируется в зависимости от стратегии выгрузки
Использование оперативной памяти хоста
Время шага оборудования

Фактическая производительность может отличаться в зависимости от конфигурации оборудования.

Поддержка тонкой настройки LoRA

MOVA предоставляет полные скрипты тонкой настройки LoRA, поддерживая несколько режимов обучения:

Конфигурации обучения (360p, 8-секундное видео)

LoRA с низкими ресурсами: Снижает требования к VRAM
Ускоренная LoRA: Улучшает скорость обучения
Ускоренная + FSDP LoRA: Поддержка распределенного обучения

Данные о пиковом использовании для каждого режима включают VRAM/GPU, оперативную память хоста и время шага.

Сценарии применения

MOVA подходит для следующих сценариев:

Создание видео-аудиоконтента: Генерация видеоконтента с синхронизированным аудио
Синхронизация губ: Добавление точной синхронизации речи к видео
Генерация звуковых эффектов: Создание осознанных окружением звуковых эффектов для видео
Многоязычное озвучивание: Поддержка многоязычной генерации синхронизации губ

Полностью открытый исходный код

MOVA использует лицензию открытого исходного кода Apache-2.0, полностью выпуская:

Веса модели: Обе версии 360p и 720p
Код вывода: Полная реализация вывода
Конвейер обучения: Сквозной процесс обучения
Скрипты тонкой настройки LoRA: Поддержка пользовательской тонкой настройки

Эта стратегия полного стека с открытым исходным кодом позволяет сообществу совместно улучшать модель и продвигать технологию генерации видео-аудио.

Техническое значение

На фоне того, что передовые технологии, такие как Sora 2 и Veo 3, движутся к закрытому исходному коду, выпуск MOVA с открытым исходным кодом заполняет пробел в фундаментальных моделях генерации видео-аудио с открытым исходным кодом. Предоставляя полные веса модели и код обучения, MOVA предоставляет сообществу основу для улучшения и настройки возможностей генерации видео-аудио.

Связанные ссылки

Репозиторий GitHub: https://github.com/OpenMOSS/MOVA
Модель HuggingFace: https://huggingface.co/OpenMOSS/MOVA
Главная страница проекта: https://openmoss.github.io/MOVA/