Skip to content
Follow me on X
ComfyUI Wiki
新闻微软发布 VibeVoice-ASR - 支持 60 分钟长音频单次处理的语音识别模型

微软发布 VibeVoice-ASR - 支持 60 分钟长音频单次处理的语音识别模型

2026年1月21日,微软正式发布 VibeVoice-ASR,这是一个拥有 9B 参数的统一语音识别模型,能够一次性处理最长达 60 分钟的音频。与传统 ASR 模型不同,VibeVoice-ASR 不会将音频切成小片段处理,从而避免了全局上下文的丢失和说话人追踪的混乱。

核心创新

60 分钟单次推理能力

VibeVoice-ASR 突破了传统 ASR 依赖短音频切片的限制,支持单次处理长达 60 分钟的连续音频。该模型通过 64K token 上下文窗口,在单一推理过程中联合完成识别、说话人日志与时间戳生成。

传统 ASR 系统通常需要:

  1. 将音频切分成短片段
  2. 分别进行语音识别
  3. 单独运行说话人分离(Diarization)
  4. 后期对齐时间戳

这种方式会导致全局语义丢失和跨片段说话人追踪失败。VibeVoice-ASR 通过端到端的统一架构,一次性解决了这些问题。

结构化转录输出

模型能够输出包含 “Who, When, What” 的结构化转录文本:

  • Who(谁):准确识别不同说话人
  • When(何时):精确的时间戳标注
  • What(说什么):高质量的文本转录

这种结构化输出特别适合会议记录、访谈整理、播客转录等场景。

自定义热词支持

VibeVoice-ASR 支持 Customized Hotwords(自定义热词) 功能,允许用户在识别时注入特定的:

  • 专有名词
  • 技术术语
  • 背景词汇

这显著提升了特定领域或低频词的识别准确率,特别适合医疗、法律和技术会议等专业场景。

技术架构

基于 Qwen2 的解码器

VibeVoice-ASR 的架构基于 Qwen2 Decoder,包含:

  • 28 层 Transformer 层
  • 3584 个隐藏维度
  • 声学和语义双编码器
  • 扩散头设计

64K Token 级长上下文

利用超长上下文窗口,模型实现了:

  • ASR(自动语音识别)
  • Diarization(说话人日志)
  • Timestamping(时间戳)

三者的端到端联合输出,形成完整的语音理解闭环。

Flash-Attention 优化

核心计算依赖 Flash-Attention 技术,优化超长序列的推理效率,确保在处理 60 分钟音频时仍能保持高性能。

性能表现

综合性能优化

通过联合训练,VibeVoice-ASR 在以下指标上具备竞争优势:

  • DER(说话人错误率):显著降低
  • cpWER(带时间戳的字错误率):优于传统方法

标准化部署环境

支持 NVIDIA PyTorch Container(验证版本 24.07 至 25.12),确保在不同硬件环境下的稳定性能。

应用场景

VibeVoice-ASR 特别适合以下场景:

会议记录

  • 自动生成完整的会议纪要
  • 准确标注每位发言人
  • 精确的时间戳便于回溯

访谈整理

  • 长时间访谈的完整转录
  • 多人对话的说话人分离
  • 专业术语的准确识别

播客转录

  • 长音频内容的一次性处理
  • 保持全局语义连贯性
  • 自动生成时间轴

专业领域

  • 医疗:病例讨论、手术记录
  • 法律:庭审记录、证词整理
  • 技术:技术会议、培训课程

开源与可用性

VibeVoice-ASR 已在 Hugging Face 开源并提供测试 Demo,采用 MIT 开源协议,支持:

  • 免费商业使用
  • 本地部署
  • 二次开发

获取方式

VibeVoice 系列

VibeVoice-ASR 是 VibeVoice 家族的一部分,该系列还包括:

  • VibeVoice-TTS:文本转语音模型
  • VibeVoice-Realtime-0.5B:实时语音合成模型(仅 0.5B 参数,300 毫秒开口)

所有模型均采用统一的技术框架:

  • 连续语音 tokenizer(7.5 Hz)
  • Next-token 扩散框架
  • LLM 推理文本和对话
  • 扩散头生成声学细节

技术意义

VibeVoice-ASR 的发布标志着语音识别技术的重要进步:

  1. 统一架构:将多个独立任务整合到单一模型
  2. 长上下文处理:突破了传统 ASR 的长度限制
  3. 端到端优化:避免了多阶段处理的信息损失
  4. 专业化支持:通过热词机制适应各类垂直领域

这为语音识别在专业场景的应用提供了更强大、更灵活的解决方案。

相关链接