Skip to content
Follow me on X
ComfyUI Wiki
新闻OpenMOSS 发布 MOVA - 开源音视频同步生成模型

OpenMOSS 发布 MOVA - 开源音视频同步生成模型

2026年1月29日,上海创智学院 OpenMOSS 团队联合模思智能(MOSI)正式发布端到端音视频生成模型 MOVA (MOSS Video and Audio)。该模型通过单次推理同步生成视频和音频,避免了级联管道的误差累积问题,在口型同步和环境音效方面达到了先进水平。

模型定位

MOVA 是一个基础模型,旨在解决开源视频生成领域的音频缺失问题。通过端到端的模态融合,模型在单次推理过程中同时生成高保真视频和同步音频,确保完美对齐。

技术架构

非对称双塔架构

MOVA 采用非对称双塔架构,通过双向交叉注意力机制融合预训练的视频塔和音频塔。这种设计使得模型能够在生成过程中保持视频和音频的紧密同步。

模型版本

项目开源了两个分辨率版本:

  • MOVA-360p:适合快速推理和资源受限环境
  • MOVA-720p:提供更高分辨率的视频生成

两个版本均支持生成最长 8 秒的音视频内容。

核心功能

原生双模态生成

MOVA 在单次推理中生成高保真视频和同步音频,避免了传统级联方法中的误差累积和同步问题。

精确口型同步

模型在多语言口型同步方面表现出色。在 Verse-Bench Set3 评测中:

  • 启用双 CFG 时,LSE-D 得分 7.094
  • LSE-C 得分 7.452

环境感知音效

模型能够根据视频内容生成相应的环境音效,包括:

  • 物理交互声音(如车辆引擎声、风声)
  • 环境氛围音(如街道混响、装备摩擦声)
  • 空间感和质感的声音反馈

性能表现

Verse-Bench 评测

模型在 Verse-Bench 基准测试中进行了全面评估:

  • 音视频对齐:在所有子集上进行评估
  • 口型同步:在 Set3 上评估
  • 语音质量:在 Set3 上评估
  • ASR 准确率:在多说话人子集上评估

人类评估

项目提供了 Elo 评分和胜率数据,将 MOVA 与现有开源模型进行对比。

推理性能

以生成 8 秒 360p 视频为例,在不同卸载策略下的性能基准:

  • VRAM 使用量根据卸载策略而变化
  • 主机 RAM 使用量
  • 硬件步骤时间

实际性能可能因硬件配置而异。

LoRA 微调支持

MOVA 提供完整的 LoRA 微调脚本,支持多种训练模式:

训练配置(360p, 8秒视频)

  • 低资源 LoRA:降低 VRAM 需求
  • 加速 LoRA:提升训练速度
  • 加速 + FSDP LoRA:分布式训练支持

每种模式的峰值使用数据包括 VRAM/GPU、主机 RAM 和步骤时间。

应用场景

MOVA 适用于以下场景:

  • 音视频内容创作:生成带同步音频的视频内容
  • 口型同步:为视频添加精确的语音同步
  • 音效生成:为视频生成环境感知的声音效果
  • 多语言配音:支持多语言的口型同步生成

完全开源

MOVA 采用 Apache-2.0 开源协议,完整发布:

  • 模型权重:360p 和 720p 两个版本
  • 推理代码:完整的推理实现
  • 训练管道:端到端训练流程
  • LoRA 微调脚本:支持自定义微调

这种全栈开源策略使社区能够协作改进模型,推动音视频生成技术的发展。

技术意义

在 Sora 2 和 Veo 3 等顶尖技术走向闭源的背景下,MOVA 的开源发布填补了音视频生成基础模型的开源空白。通过提供完整的模型权重和训练代码,MOVA 为社区提供了改进和定制音视频生成能力的基础。

相关链接