Microsoft、VibeVoice-ASRをリリース - 60分長音声シングルパス処理対応音声認識モデル

2026年1月21日、Microsoftは9Bパラメータを持つ統合音声認識モデルVibeVoice-ASRを正式にリリースしました。このモデルは最大60分の音声を一度に処理できます。従来のASRモデルとは異なり、VibeVoice-ASRは音声を小さなチャンクに分割して処理しないため、グローバルコンテキストの損失や話者追跡の混乱を回避します。

コアイノベーション

60分シングルパス推論能力

VibeVoice-ASRは、従来のASRの短音声セグメンテーションへの依存を打破し、最大60分の連続音声のシングルパス処理をサポートします。64Kトークンコンテキストウィンドウを通じて、モデルは単一推論プロセスで認識、話者分離、タイムスタンプ生成を共同で完了します。

従来のASRシステムは通常、以下を必要とします：

音声を短いクリップに分割
個別に音声認識を実行
話者分離（Diarization）を個別に実行
後処理でタイムスタンプを整列

このアプローチはグローバル意味の損失とクロスセグメント話者追跡の失敗を引き起こします。VibeVoice-ASRはエンドツーエンドの統合アーキテクチャを通じてこれらの問題を解決します。

構造化転写出力

モデルは**「Who, When, What」**を含む構造化転写テキストを出力できます：

Who（誰）：異なる話者を正確に識別
When（いつ）：正確なタイムスタンプアノテーション
What（何を）：高品質のテキスト転写

この構造化出力は、会議議事録、インタビュー転写、ポッドキャスト転写などのシナリオに特に適しています。

カスタムホットワードサポート

VibeVoice-ASRは**Customized Hotwords（カスタムホットワード）**機能をサポートし、ユーザーが特定の以下を注入できるようにします：

固有名詞
技術用語
背景語彙

これにより、ドメイン固有または低頻度語の認識精度が大幅に向上し、医療、法律、技術会議などの専門シナリオに特に適しています。

技術アーキテクチャ

Qwen2ベースのデコーダ

VibeVoice-ASRのアーキテクチャはQwen2 Decoderをベースとし、以下を含みます：

28層のTransformer層
3584の隠れ次元
音響および意味デュアルエンコーダ
拡散ヘッド設計

64Kトークンレベル長コンテキスト

超長コンテキストウィンドウを利用して、モデルは以下を実現します：

ASR（自動音声認識）
Diarization（話者分離）
Timestamping（タイムスタンプ）

3つすべてのエンドツーエンド共同出力により、完全な音声理解ループを形成します。

Flash-Attention最適化

コア計算はFlash-Attention技術に依存し、超長シーケンスの推論効率を最適化し、60分の音声を処理する際も高パフォーマンスを維持します。

パフォーマンス

総合パフォーマンス最適化

共同トレーニングにより、VibeVoice-ASRは以下の指標で競争力のある優位性を持っています：

DER（話者エラー率）：大幅に削減
cpWER（タイムスタンプ付き文字エラー率）：従来の方法より優れている

標準化デプロイメント環境

NVIDIA PyTorch Container（検証済みバージョン24.07〜25.12）をサポートし、異なるハードウェア環境での安定したパフォーマンスを保証します。

応用シナリオ

VibeVoice-ASRは特に以下のシナリオに適しています：

会議議事録

完全な会議議事録を自動生成
各発言者を正確にラベル付け
正確なタイムスタンプで簡単に振り返り

インタビュー転写

長時間インタビューの完全な転写
複数人会話の話者分離
専門用語の正確な認識

ポッドキャスト転写

長音声コンテンツの一度の処理
グローバル意味の一貫性を維持
タイムラインを自動生成

専門分野

医療：症例ディスカッション、手術記録
法律：法廷記録、証言転写
技術：技術会議、トレーニングコース

オープンソースと可用性

VibeVoice-ASRはHugging Faceでオープンソース化され、テストデモを提供し、MITオープンソースライセンスを使用し、以下をサポートします：

無料商用利用
ローカルデプロイメント
二次開発

アクセス

HuggingFace：https://huggingface.co/microsoft/VibeVoice-ASR
GitHub：https://github.com/microsoft/VibeVoice
技術レポート：https://www.arxiv.org/pdf/2601.18184

VibeVoiceシリーズ

VibeVoice-ASRはVibeVoiceファミリーの一部であり、このシリーズには以下も含まれます：

VibeVoice-TTS：テキスト音声変換モデル
VibeVoice-Realtime-0.5B：リアルタイム音声合成モデル（わずか0.5Bパラメータ、300ms応答時間）

すべてのモデルは統一された技術フレームワークを使用します：

連続音声トークナイザ（7.5 Hz）
Next-token拡散フレームワーク
LLMテキストと対話の推論
拡散ヘッドが音響詳細を生成

技術的意義

VibeVoice-ASRのリリースは、音声認識技術の重要な進歩を示しています：

統合アーキテクチャ：複数の独立したタスクを単一モデルに統合
長コンテキスト処理：従来のASRの長さ制限を打破
エンドツーエンド最適化：多段階処理による情報損失を回避
専門サポート：ホットワードメカニズムにより様々な垂直分野に適応

これにより、専門シナリオにおける音声認識のためのより強力で柔軟なソリューションが提供されます。