OpenMOSS 发布 MOVA - 开源音视频同步生成模型
2026/01/29
微软发布 VibeVoice-ASR - 支持 60 分钟长音频单次处理的语音识别模型
2026年1月21日,微软正式发布 VibeVoice-ASR,这是一个拥有 9B 参数的统一语音识别模型,能够一次性处理最长达 60 分钟的音频。与传统 ASR 模型不同,VibeVoice-ASR 不会将音频切成小片段处理,从而避免了全局上下文的丢失和说话人追踪的混乱。
核心创新
60 分钟单次推理能力
VibeVoice-ASR 突破了传统 ASR 依赖短音频切片的限制,支持单次处理长达 60 分钟的连续音频。该模型通过 64K token 上下文窗口,在单一推理过程中联合完成识别、说话人日志与时间戳生成。
传统 ASR 系统通常需要:
- 将音频切分成短片段
- 分别进行语音识别
- 单独运行说话人分离(Diarization)
- 后期对齐时间戳
这种方式会导致全局语义丢失和跨片段说话人追踪失败。VibeVoice-ASR 通过端到端的统一架构,一次性解决了这些问题。
结构化转录输出
模型能够输出包含 “Who, When, What” 的结构化转录文本:
- Who(谁):准确识别不同说话人
- When(何时):精确的时间戳标注
- What(说什么):高质量的文本转录
这种结构化输出特别适合会议记录、访谈整理、播客转录等场景。
自定义热词支持
VibeVoice-ASR 支持 Customized Hotwords(自定义热词) 功能,允许用户在识别时注入特定的:
- 专有名词
- 技术术语
- 背景词汇
这显著提升了特定领域或低频词的识别准确率,特别适合医疗、法律和技术会议等专业场景。
技术架构
基于 Qwen2 的解码器
VibeVoice-ASR 的架构基于 Qwen2 Decoder,包含:
- 28 层 Transformer 层
- 3584 个隐藏维度
- 声学和语义双编码器
- 扩散头设计
64K Token 级长上下文
利用超长上下文窗口,模型实现了:
- ASR(自动语音识别)
- Diarization(说话人日志)
- Timestamping(时间戳)
三者的端到端联合输出,形成完整的语音理解闭环。
Flash-Attention 优化
核心计算依赖 Flash-Attention 技术,优化超长序列的推理效率,确保在处理 60 分钟音频时仍能保持高性能。
性能表现
综合性能优化
通过联合训练,VibeVoice-ASR 在以下指标上具备竞争优势:
- DER(说话人错误率):显著降低
- cpWER(带时间戳的字错误率):优于传统方法
标准化部署环境
支持 NVIDIA PyTorch Container(验证版本 24.07 至 25.12),确保在不同硬件环境下的稳定性能。
应用场景
VibeVoice-ASR 特别适合以下场景:
会议记录
- 自动生成完整的会议纪要
- 准确标注每位发言人
- 精确的时间戳便于回溯
访谈整理
- 长时间访谈的完整转录
- 多人对话的说话人分离
- 专业术语的准确识别
播客转录
- 长音频内容的一次性处理
- 保持全局语义连贯性
- 自动生成时间轴
专业领域
- 医疗:病例讨论、手术记录
- 法律:庭审记录、证词整理
- 技术:技术会议、培训课程
开源与可用性
VibeVoice-ASR 已在 Hugging Face 开源并提供测试 Demo,采用 MIT 开源协议,支持:
- 免费商业使用
- 本地部署
- 二次开发
获取方式
- HuggingFace:https://huggingface.co/microsoft/VibeVoice-ASR
- GitHub:https://github.com/microsoft/VibeVoice
- 技术报告:https://www.arxiv.org/pdf/2601.18184
VibeVoice 系列
VibeVoice-ASR 是 VibeVoice 家族的一部分,该系列还包括:
- VibeVoice-TTS:文本转语音模型
- VibeVoice-Realtime-0.5B:实时语音合成模型(仅 0.5B 参数,300 毫秒开口)
所有模型均采用统一的技术框架:
- 连续语音 tokenizer(7.5 Hz)
- Next-token 扩散框架
- LLM 推理文本和对话
- 扩散头生成声学细节
技术意义
VibeVoice-ASR 的发布标志着语音识别技术的重要进步:
- 统一架构:将多个独立任务整合到单一模型
- 长上下文处理:突破了传统 ASR 的长度限制
- 端到端优化:避免了多阶段处理的信息损失
- 专业化支持:通过热词机制适应各类垂直领域
这为语音识别在专业场景的应用提供了更强大、更灵活的解决方案。
相关链接
- HuggingFace 模型:https://huggingface.co/microsoft/VibeVoice-ASR
- GitHub 仓库:https://github.com/microsoft/VibeVoice
- 技术论文:https://www.arxiv.org/pdf/2601.18184