OpenMOSS 发布 MOVA - 开源音视频同步生成模型
2026/01/29
OpenMOSS 发布 MOVA - 开源音视频同步生成模型
2026年1月29日,上海创智学院 OpenMOSS 团队联合模思智能(MOSI)正式发布端到端音视频生成模型 MOVA (MOSS Video and Audio)。该模型通过单次推理同步生成视频和音频,避免了级联管道的误差累积问题,在口型同步和环境音效方面达到了先进水平。
模型定位
MOVA 是一个基础模型,旨在解决开源视频生成领域的音频缺失问题。通过端到端的模态融合,模型在单次推理过程中同时生成高保真视频和同步音频,确保完美对齐。
技术架构
非对称双塔架构
MOVA 采用非对称双塔架构,通过双向交叉注意力机制融合预训练的视频塔和音频塔。这种设计使得模型能够在生成过程中保持视频和音频的紧密同步。
模型版本
项目开源了两个分辨率版本:
- MOVA-360p:适合快速推理和资源受限环境
- MOVA-720p:提供更高分辨率的视频生成
两个版本均支持生成最长 8 秒的音视频内容。
核心功能
原生双模态生成
MOVA 在单次推理中生成高保真视频和同步音频,避免了传统级联方法中的误差累积和同步问题。
精确口型同步
模型在多语言口型同步方面表现出色。在 Verse-Bench Set3 评测中:
- 启用双 CFG 时,LSE-D 得分 7.094
- LSE-C 得分 7.452
环境感知音效
模型能够根据视频内容生成相应的环境音效,包括:
- 物理交互声音(如车辆引擎声、风声)
- 环境氛围音(如街道混响、装备摩擦声)
- 空间感和质感的声音反馈
性能表现
Verse-Bench 评测
模型在 Verse-Bench 基准测试中进行了全面评估:
- 音视频对齐:在所有子集上进行评估
- 口型同步:在 Set3 上评估
- 语音质量:在 Set3 上评估
- ASR 准确率:在多说话人子集上评估
人类评估
项目提供了 Elo 评分和胜率数据,将 MOVA 与现有开源模型进行对比。
推理性能
以生成 8 秒 360p 视频为例,在不同卸载策略下的性能基准:
- VRAM 使用量根据卸载策略而变化
- 主机 RAM 使用量
- 硬件步骤时间
实际性能可能因硬件配置而异。
LoRA 微调支持
MOVA 提供完整的 LoRA 微调脚本,支持多种训练模式:
训练配置(360p, 8秒视频)
- 低资源 LoRA:降低 VRAM 需求
- 加速 LoRA:提升训练速度
- 加速 + FSDP LoRA:分布式训练支持
每种模式的峰值使用数据包括 VRAM/GPU、主机 RAM 和步骤时间。
应用场景
MOVA 适用于以下场景:
- 音视频内容创作:生成带同步音频的视频内容
- 口型同步:为视频添加精确的语音同步
- 音效生成:为视频生成环境感知的声音效果
- 多语言配音:支持多语言的口型同步生成
完全开源
MOVA 采用 Apache-2.0 开源协议,完整发布:
- 模型权重:360p 和 720p 两个版本
- 推理代码:完整的推理实现
- 训练管道:端到端训练流程
- LoRA 微调脚本:支持自定义微调
这种全栈开源策略使社区能够协作改进模型,推动音视频生成技术的发展。
技术意义
在 Sora 2 和 Veo 3 等顶尖技术走向闭源的背景下,MOVA 的开源发布填补了音视频生成基础模型的开源空白。通过提供完整的模型权重和训练代码,MOVA 为社区提供了改进和定制音视频生成能力的基础。
相关链接
- GitHub 仓库:https://github.com/OpenMOSS/MOVA
- HuggingFace 模型:https://huggingface.co/OpenMOSS/MOVA
- 项目主页:https://openmoss.github.io/MOVA/