OpenMOSS、MOVA をリリース - オープンソース音声・動画同期生成モデル

2026/01/29

NVIDIA、PersonaPlex-7B-v1をリリース - 全二重音声対話モデル

2026年1月20日、NVIDIA研究所は正式にPersonaPlex-7B-v1を発表しました。これはMoshiアーキテクチャをベースとした70億パラメータの全二重音声対話モデルです。このモデルは従来のASR→LLM→TTSカスケードパイプラインを放棄し、統一されたTransformerアーキテクチャを採用して、単一ネットワーク内で音声理解と生成を同期処理し、自然な中断、重複音声、迅速なターンテイキング、コンテキスト認識バックチャネルをサポートします。

コアイノベーション

全二重リアルタイムインタラクション

PersonaPlex-7B-v1の最大のブレークスルーは、真の**全二重（Full Duplex）**対話能力の実現にあります：

聴きながら話す：モデルはユーザー入力を同時に聴きながら応答を生成可能
自然な中断：ユーザーがいつでもAIの発言を中断することをサポート
即時フィードバック：「うんうん」「そうだね」などのバックチャネルを生成可能
本物のリズム：人間の会話の自然な間とイントネーションの変化をシミュレート

従来の音声AIは硬直した3段階プロセス（音声認識→大規模言語モデル処理→音声合成）を使用します。この「聴く-考える-話す」リレーモードは機能しますが、常に自然なインタラクション感に欠け、対話を機械的なターンベースの戦闘に変えてしまいます。

PersonaPlex-7B-v1はデュアルストリームTransformerアーキテクチャを通じて連続音声トークンを処理し、テキストと音声の並列生成を実現し、タスクの引き継ぎや強制的な一時停止を必要としません。

超低レイテンシ応答

パフォーマンステストにおいて、PersonaPlex-7B-v1は優れた成績を収めています：

ターンテイキング率：90.8%
中断応答レイテンシ：240ミリ秒まで低減
Time to First Token（TTFT）：約170ミリ秒

これらの指標は既存のオープンソースおよび商用システムを大幅に上回り、ユーザーに実際の人間の会話に近いスムーズな体験を提供します。

ハイブリッドプロンプトメカニズム

PersonaPlexは革新的なハイブリッドプロンプトメカニズムを通じて正確な役割制御を実現します：

音声プロンプト（Voice Prompt）

音色と韻律を定義
話速と感情表現を制御
わずか数秒の音声サンプルで高忠実度音声クローニングを実現

テキストプロンプト（Text Prompt）

役割のアイデンティティとビジネスシナリオを設定
知識背景と行動スタイルを定義
名前、組織などの構造化情報を含むことが可能

システムプロンプト（System Prompt）

コンテキスト情報を提供
対話ルールを設定
タスク目標を定義

この多次元プロンプトシステムにより、PersonaPlexは様々なアプリケーションシナリオに柔軟に適応でき、専門チューターからカスタマーサービス担当者、クリエイティブな仮想キャラクターから技術サポートまで対応します。

技術アーキテクチャ

Moshiベースの統合アーキテクチャ

PersonaPlex-7B-v1はMoshiアーキテクチャ上に構築され、エンドツーエンドモデリング方式を使用します：

Mimi音声エンコーダ（ConvNet + Transformer）：生音声を離散テキストトークンにマッピング
Temporal Transformer：時間次元で会話のリズムをモデル化（いつ中断するか、いつ待つか）
Depth Transformer：意味的意図と行動戦略を深く解析
Mimi音声デコーダ（Transformer + ConvNet）：トークンシーケンスを高忠実度音声に復元

音声サンプリングレートは24kHzに達し、高品質の音声出力を保証します。

基盤言語モデル：Helium

PersonaPlexはHeliumを基盤言語モデルとして使用し、以下を提供します：

意味理解能力
分布外シナリオへの汎化能力
強力なコンテキストモデリング

トレーニングデータ

PersonaPlexのトレーニングデータは、実際の会話と高品質の合成コーパスを融合しています：

実際の会話データ

ソース：Fisher Englishコーパス
規模：7,303会話、合計1,217時間
処理：GPT-OSS-120Bを使用してプロンプトでバックアノテーション

合成会話データ

ティーチングアシスタントシナリオ

規模：39,322会話、410時間
生成：Qwen3-32BとGPT-OSS-120Bがテキストを生成、Chatterbox TTSが音声を合成

カスタマーサービスシナリオ

規模：105,410会話、1,840時間
ドメイン：教育、医療、金融など複数の垂直ドメインをカバー

このハイブリッドトレーニング戦略により、モデルは真実性と汎化能力の両方を持つことが保証されます。

パフォーマンス

権威あるベンチマークテストにおいて、PersonaPlex-7B-v1は優れたパフォーマンスを発揮します：

会話ダイナミクス（FullDuplexBench）

PersonaPlex：90.8
Moshi：95.06
Freeze Omni：60.68
Qwen 2.5 Omni：86.53

応答レイテンシ

PersonaPlex：0.170秒
Moshi：0.240秒
Freeze Omni：0.205秒
Qwen 2.5 Omni：0.953秒

タスク遵守度

PersonaPlex：4.29
Moshi：4.40
Freeze Omni：4.34
Qwen 2.5 Omni：3.62

応用シナリオ

PersonaPlex-7B-v1は様々なシナリオに適しています：

インテリジェント教育支援

パーソナライズされた教師として、明確な論理と生き生きとした表現で知識ポイントを説明し、学習意欲を刺激し、異なる認知レベルの学生に適応します。

インテリジェントカスタマーサービス

銀行、通信、保険などの業界のフロントライン職務に適任で、顧客のニーズに基づいて専門的なコンサルティングを提供し、忍耐強く専門的なサービス態度を維持します。

ロールプレイングとゲーム

ゲームやシミュレーションシナリオで様々な役割を演じ、没入型のインタラクティブ体験を提供します。

バーチャルコンパニオン

日常会話の付き添いを提供し、感情を理解し適切な感情フィードバックを与えることができます。

専門シナリオ

宇宙緊急管理などの特殊なシナリオで、適切な感情トーンで専門的なガイダンスを提供できます。

オープンソースと可用性

PersonaPlex-7B-v1は完全にオープンソース化され、フレンドリーなライセンスを採用しています：

コード：MIT License
モデルウェイト：NVIDIA Open Model License
ベースMoshiモデル：CC-BY-4.0

開発者は以下が可能です：

無料でダウンロードして使用
ローカルでデプロイして実行
二次開発とカスタマイズを実行
商用アプリケーションに統合

アクセス

HuggingFace：https://huggingface.co/nvidia/personaplex-7b-v1
GitHub：https://github.com/nvidia/personaplex
研究ページ：https://research.nvidia.com/labs/adlr/personaplex/

技術的意義

PersonaPlex-7B-v1のリリースは、音声AIインタラクションの重要なブレークスルーを示しています：

アーキテクチャイノベーション：カスケードパイプラインからエンドツーエンド統合処理へ
自然なインタラクション：真に「人間の会話の呼吸リズム」を習得
低障壁デプロイメント：オープンソースモデルが自然な会話エージェント構築の技術とコストの障壁を低下
幅広い応用：リアルタイム翻訳、没入型ゲームNPC、高度な車載アシスタントなど複数のドメインに適している

NVIDIAはPersonaPlexをオープンソース化することで、音声AI分野にローカルデプロイ可能で商業的に実行可能なソリューションを提供し、次世代の人間とコンピュータのインタラクションインターフェースの発展を推進しています。