OpenMOSS выпускает MOVA - модель синхронизированной генерации видео и аудио с открытым исходным кодом
29 января 2026 года команда OpenMOSS из Шанхайской академии Чуанчжи совместно с MOSI Intelligence официально выпустила модель сквозной генерации видео и аудио MOVA (MOSS Video and Audio). Модель синхронно генерирует видео и аудио за один проход вывода, избегая проблем накопления ошибок каскадных конвейеров и достигая передовых показателей в синхронизации губ и экологических звуковых эффектов.
Позиционирование модели
MOVA - это фундаментальная модель, разработанная для решения проблемы отсутствия аудио в области генерации видео с открытым исходным кодом. Благодаря сквозному слиянию модальностей, модель одновременно генерирует видео высокой точности и синхронизированное аудио в одном процессе вывода, обеспечивая идеальное выравнивание.
Техническая архитектура
Асимметричная двухбашенная архитектура
MOVA использует асимметричную двухбашенную архитектуру, объединяя предварительно обученные видео- и аудио-башни через механизм двунаправленного перекрестного внимания. Эта конструкция позволяет модели поддерживать тесную синхронизацию между видео и аудио во время генерации.
Версии модели
Проект открыл две версии разрешения:
- MOVA-360p: Подходит для быстрого вывода и сред с ограниченными ресурсами
- MOVA-720p: Обеспечивает генерацию видео более высокого разрешения
Обе версии поддерживают генерацию до 8 секунд видео-аудиоконтента.
Основные функции
Нативная бимодальная генерация
MOVA генерирует видео высокой точности и синхронизированное аудио за один проход вывода, избегая проблем накопления ошибок и синхронизации традиционных каскадных методов.
Точная синхронизация губ
Модель демонстрирует превосходные показатели в многоязычной синхронизации губ. В оценке Verse-Bench Set3:
- При включенном двойном CFG, оценка LSE-D 7.094
- Оценка LSE-C 7.452
Осознанные окружением звуковые эффекты
Модель может генерировать соответствующие экологические звуковые эффекты на основе видеоконтента, включая:
- Звуки физического взаимодействия (такие как звуки двигателей транспортных средств, звуки ветра)
- Окружающие амбиентные звуки (такие как реверберация улиц, звуки трения оборудования)
- Пространственная и текстурная звуковая обратная связь
Производительность
Оценка Verse-Bench
Модель была всесторонне оценена на бенчмарке Verse-Bench:
- Выравнивание аудио-видео: Оценивается на всех подмножествах
- Синхронизация губ: Оценивается на Set3
- Качество речи: Оценивается на Set3
- Точность ASR: Оценивается на подмножестве с несколькими говорящими
Человеческая оценка
Проект предоставляет оценки Elo и данные о проценте побед, сравнивая MOVA с существующими моделями с открытым исходным кодом.
Производительность вывода
Для генерации 8-секундного видео 360p, бенчмарки производительности при различных стратегиях выгрузки:
- Использование VRAM варьируется в зависимости от стратегии выгрузки
- Использование оперативной памяти хоста
- Время шага оборудования
Фактическая производительность может отличаться в зависимости от конфигурации оборудования.
Поддержка тонкой настройки LoRA
MOVA предоставляет полные скрипты тонкой настройки LoRA, поддерживая несколько режимов обучения:
Конфигурации обучения (360p, 8-секундное видео)
- LoRA с низкими ресурсами: Снижает требования к VRAM
- Ускоренная LoRA: Улучшает скорость обучения
- Ускоренная + FSDP LoRA: Поддержка распределенного обучения
Данные о пиковом использовании для каждого режима включают VRAM/GPU, оперативную память хоста и время шага.
Сценарии применения
MOVA подходит для следующих сценариев:
- Создание видео-аудиоконтента: Генерация видеоконтента с синхронизированным аудио
- Синхронизация губ: Добавление точной синхронизации речи к видео
- Генерация звуковых эффектов: Создание осознанных окружением звуковых эффектов для видео
- Многоязычное озвучивание: Поддержка многоязычной генерации синхронизации губ
Полностью открытый исходный код
MOVA использует лицензию открытого исходного кода Apache-2.0, полностью выпуская:
- Веса модели: Обе версии 360p и 720p
- Код вывода: Полная реализация вывода
- Конвейер обучения: Сквозной процесс обучения
- Скрипты тонкой настройки LoRA: Поддержка пользовательской тонкой настройки
Эта стратегия полного стека с открытым исходным кодом позволяет сообществу совместно улучшать модель и продвигать технологию генерации видео-аудио.
Техническое значение
На фоне того, что передовые технологии, такие как Sora 2 и Veo 3, движутся к закрытому исходному коду, выпуск MOVA с открытым исходным кодом заполняет пробел в фундаментальных моделях генерации видео-аудио с открытым исходным кодом. Предоставляя полные веса модели и код обучения, MOVA предоставляет сообществу основу для улучшения и настройки возможностей генерации видео-аудио.
Связанные ссылки
- Репозиторий GitHub: https://github.com/OpenMOSS/MOVA
- Модель HuggingFace: https://huggingface.co/OpenMOSS/MOVA
- Главная страница проекта: https://openmoss.github.io/MOVA/