Skip to content
Follow me on X
ComfyUI Wiki
НовостиOpenMOSS выпускает MOVA - модель синхронизированной генерации видео и аудио с открытым исходным кодом

OpenMOSS выпускает MOVA - модель синхронизированной генерации видео и аудио с открытым исходным кодом

29 января 2026 года команда OpenMOSS из Шанхайской академии Чуанчжи совместно с MOSI Intelligence официально выпустила модель сквозной генерации видео и аудио MOVA (MOSS Video and Audio). Модель синхронно генерирует видео и аудио за один проход вывода, избегая проблем накопления ошибок каскадных конвейеров и достигая передовых показателей в синхронизации губ и экологических звуковых эффектов.

Позиционирование модели

MOVA - это фундаментальная модель, разработанная для решения проблемы отсутствия аудио в области генерации видео с открытым исходным кодом. Благодаря сквозному слиянию модальностей, модель одновременно генерирует видео высокой точности и синхронизированное аудио в одном процессе вывода, обеспечивая идеальное выравнивание.

Техническая архитектура

Асимметричная двухбашенная архитектура

MOVA использует асимметричную двухбашенную архитектуру, объединяя предварительно обученные видео- и аудио-башни через механизм двунаправленного перекрестного внимания. Эта конструкция позволяет модели поддерживать тесную синхронизацию между видео и аудио во время генерации.

Версии модели

Проект открыл две версии разрешения:

  • MOVA-360p: Подходит для быстрого вывода и сред с ограниченными ресурсами
  • MOVA-720p: Обеспечивает генерацию видео более высокого разрешения

Обе версии поддерживают генерацию до 8 секунд видео-аудиоконтента.

Основные функции

Нативная бимодальная генерация

MOVA генерирует видео высокой точности и синхронизированное аудио за один проход вывода, избегая проблем накопления ошибок и синхронизации традиционных каскадных методов.

Точная синхронизация губ

Модель демонстрирует превосходные показатели в многоязычной синхронизации губ. В оценке Verse-Bench Set3:

  • При включенном двойном CFG, оценка LSE-D 7.094
  • Оценка LSE-C 7.452

Осознанные окружением звуковые эффекты

Модель может генерировать соответствующие экологические звуковые эффекты на основе видеоконтента, включая:

  • Звуки физического взаимодействия (такие как звуки двигателей транспортных средств, звуки ветра)
  • Окружающие амбиентные звуки (такие как реверберация улиц, звуки трения оборудования)
  • Пространственная и текстурная звуковая обратная связь

Производительность

Оценка Verse-Bench

Модель была всесторонне оценена на бенчмарке Verse-Bench:

  • Выравнивание аудио-видео: Оценивается на всех подмножествах
  • Синхронизация губ: Оценивается на Set3
  • Качество речи: Оценивается на Set3
  • Точность ASR: Оценивается на подмножестве с несколькими говорящими

Человеческая оценка

Проект предоставляет оценки Elo и данные о проценте побед, сравнивая MOVA с существующими моделями с открытым исходным кодом.

Производительность вывода

Для генерации 8-секундного видео 360p, бенчмарки производительности при различных стратегиях выгрузки:

  • Использование VRAM варьируется в зависимости от стратегии выгрузки
  • Использование оперативной памяти хоста
  • Время шага оборудования

Фактическая производительность может отличаться в зависимости от конфигурации оборудования.

Поддержка тонкой настройки LoRA

MOVA предоставляет полные скрипты тонкой настройки LoRA, поддерживая несколько режимов обучения:

Конфигурации обучения (360p, 8-секундное видео)

  • LoRA с низкими ресурсами: Снижает требования к VRAM
  • Ускоренная LoRA: Улучшает скорость обучения
  • Ускоренная + FSDP LoRA: Поддержка распределенного обучения

Данные о пиковом использовании для каждого режима включают VRAM/GPU, оперативную память хоста и время шага.

Сценарии применения

MOVA подходит для следующих сценариев:

  • Создание видео-аудиоконтента: Генерация видеоконтента с синхронизированным аудио
  • Синхронизация губ: Добавление точной синхронизации речи к видео
  • Генерация звуковых эффектов: Создание осознанных окружением звуковых эффектов для видео
  • Многоязычное озвучивание: Поддержка многоязычной генерации синхронизации губ

Полностью открытый исходный код

MOVA использует лицензию открытого исходного кода Apache-2.0, полностью выпуская:

  • Веса модели: Обе версии 360p и 720p
  • Код вывода: Полная реализация вывода
  • Конвейер обучения: Сквозной процесс обучения
  • Скрипты тонкой настройки LoRA: Поддержка пользовательской тонкой настройки

Эта стратегия полного стека с открытым исходным кодом позволяет сообществу совместно улучшать модель и продвигать технологию генерации видео-аудио.

Техническое значение

На фоне того, что передовые технологии, такие как Sora 2 и Veo 3, движутся к закрытому исходному коду, выпуск MOVA с открытым исходным кодом заполняет пробел в фундаментальных моделях генерации видео-аудио с открытым исходным кодом. Предоставляя полные веса модели и код обучения, MOVA предоставляет сообществу основу для улучшения и настройки возможностей генерации видео-аудио.

Связанные ссылки