アリババQwen、Qwen3-TTSをリリース - 97ms超低レイテンシ音声合成モデル

2026年1月22日、アリババQwenチームはQwen3-TTS音声生成モデルシリーズを正式にオープンソース化しました。これは音声クローニング、音声創造、超高品質人間化音声生成、および自然言語ベースの音声制御を包括的にサポートする強力な音声合成システムです。このモデルシリーズのリリースは、音声合成分野における重要なブレークスルーと見なされています。

コアイノベーション

Dual-Trackモデリング

Qwen3-TTSのコアイノベーションは、**Dual-Track（デュアルトラック）**ハイブリッドストリーミング生成メカニズムにあり、離散マルチコードブック言語モデルと組み合わせて、音声をエンドツーエンドで直接モデル化し、従来のカスケードアーキテクチャ（LM+DiTなど）の情報ボトルネックを回避します。

この革新的なアーキテクチャは以下を実現します：

超低レイテンシ：エンドツーエンド合成レイテンシが97msまで低減
即時応答：1文字の入力だけで最初の音声パケットを出力
デュアルモードサポート：単一モデルでストリーミングと非ストリーミング生成の両方をサポート

この究極の応答速度は人間の会話応答速度に近く、ライブインタラクション、リアルタイム翻訳、AIカスタマーサービスなどのレイテンシに敏感なシナリオに最適です。

Qwen3-TTS-Tokenizer-12Hz

モデルは革新的なQwen3-TTS-Tokenizer-12Hzマルチコードブック音声エンコーダに依存し、音声信号の効率的な圧縮と強力な表現能力を実現します：

パラ言語情報（イントネーション、リズム、感情など）を完全に保持
音響環境特性を保持
軽量の非DiTアーキテクチャにより高速・高忠実度の音声復元を実現

離散マルチコードブックLMアーキテクチャ

離散マルチコードブック言語モデル（LM）アーキテクチャを採用し、音声の全情報エンドツーエンドモデリングを実現：

従来のLM+DiTソリューションの情報ボトルネックを完全に回避
カスケードエラーを回避
モデルの汎用性、生成効率、パフォーマンス上限を大幅に向上

モデルシリーズ

Qwen3-TTSは、異なるシナリオのニーズに応えるため、2つのパラメータスケールを提供します：

1.7Bモデルシリーズ

究極のパフォーマンス、強力な制御

Qwen3-TTS-12Hz-1.7B-VoiceDesign

ユーザー提供の自然言語記述に基づいて音声デザインを実行
音響属性、ペルソナ、背景情報を自由に定義可能
ユニークなカスタマイズ音声を作成

Qwen3-TTS-12Hz-1.7B-CustomVoice

ユーザー指示によりターゲット音声のスタイル制御を提供
9つのプレミアム音声をサポート、性別、年齢、言語、方言の様々な組み合わせをカバー
指示により音声、感情、韻律などの多次元音響属性を柔軟に制御可能

Qwen3-TTS-12Hz-1.7B-Base

ベースモデル、ユーザー提供の3秒音声から迅速に音声をクローン
他のモデルのファインチューニングに使用可能
最大の柔軟性とカスタマイズスペースを提供

0.6Bモデルシリーズ

パフォーマンスと効率のバランス

Qwen3-TTS-12Hz-0.6B-CustomVoice

9つのプレミアム音声をサポート
良好な効果を維持しながらリソース消費を大幅に削減
リソース制約のあるエッジデバイスやモバイルデバイスへのデプロイに適している

Qwen3-TTS-12Hz-0.6B-Base

ベースモデル、3秒迅速音声クローニングをサポート
より低い計算リソース要件
高並行デプロイメントシナリオに適している

コア機能

3秒迅速音声クローニング

音声クローニング能力は特に印象的です：

わずか3秒の参照音声で高忠実度ゼロショット音声複製を実現
クローンされた音声はシームレスなクロスランゲージ移行をサポート
中国語音声で英語、日本語、韓国語など10言語を直接話すことが可能
元の音声特性を同時に保持

クロスランゲージ/方言ゼロロス移行

10の主要言語をサポート：中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、ポルトガル語、スペイン語、イタリア語
複数の中国語方言をサポート：四川方言、北京方言など
アクセントと魅力の高精度復元
多言語コンテンツ作成とローカライゼーションアプリケーションに新たな可能性を開く

自然言語音声デザイン

Voice Design機能により、ユーザーは自然言語指示で音声をカスタマイズできます：

「優しく励ます成熟した女性の声で物語を語る」
「興奮した高音の若い男性の声でゲームを実況する」
モデルが自動的にイントネーション、感情、リズムを調整
高度にパーソナライズされた表現を生成

この**「想像したものが聞こえる」**制御能力は、オーディオブック制作で特に有用です。一人で複数の役を演じ、感情の起伏や方言の切り替えをすべてマスターできます。

インテリジェントコンテキスト理解

モデルは強力なテキスト意味理解能力を持っています：

入力テキストに基づいて自動的にトーン、リズム、感情を調整可能
異なるシナリオのニーズに適応
入力テキストノイズに対するロバスト性が大幅に向上
人間化された自然な表現を実現

パフォーマンス

コンテンツ一貫性（WER）

コンテンツ一貫性評価で優れたパフォーマンス：

中国語：WER 0.77
英語：WER 1.24

制御可能な音声生成

Qwen3-TTS-12Hz-1.7B-CustomVoiceは以下の指標で強力なパフォーマンスを示します：

APS（Audio Prosody Similarity）：高い韻律類似度
DSD（Duration Similarity Distance）：正確な持続時間制御
RP（Rhythm Preservation）：優れたリズム保持

音声デザイン

Qwen3-TTS-12Hz-1.7B-VoiceDesignは音声デザインタスクで**SOTA（State-of-the-Art）**レベルを達成しています。

音声エンコーダ

Qwen-TTS-Tokenizer-12Hzは以下の指標で優れたパフォーマンスを示します：

PESQ：知覚音声品質評価
STOI：短時間客観的明瞭度
UTMOS：平均オピニオンスコア
SIM：類似度

応用シナリオ

インテリジェント音声アシスタント

スマートホームデバイスや車載システムに自然な音声インタラクションを提供
複数の言語と方言をサポート
ユーザー体験を向上

コンテンツ作成

テキストを迅速に自然な音声に変換
複数の音声と感情表現をサポート
オーディオブックやビデオ吹き替えに適している
一人で複数の役を演じ、高品質の音声コンテンツを制作

教育分野

言語学習やオンライン教育に多言語・多音声の音声出力を提供
学習効果を向上
方言教育をサポート

ゲームとエンターテインメント

ゲームキャラクターにパーソナライズされた音声を生成
感情とトーンの調整をサポート
ゲームの没入感を向上

カスタマーサービス

インテリジェントカスタマーサービスに自然で親しみやすい音声インタラクションを提供
リアルタイム対話をサポート
カスタマーサービスコストを削減

ライブストリーミングインタラクション

超低レイテンシでリアルタイムインタラクションのニーズを満たす
多言語ライブストリーミングをサポート
視聴者体験を向上

技術的優位性

エンドツーエンドアーキテクチャ

従来のカスケードアーキテクチャの情報ボトルネックを回避
カスケードエラーを削減
全体的なパフォーマンスを向上

軽量で効率的

非DiTアーキテクチャは高忠実度復元を保証しながら計算効率を効果的に向上
0.6Bモデルはエッジデバイスデプロイメントに適している
1.7Bモデルは究極のパフォーマンスを追求

オープンソースフレンドリー

完全なシリーズをGitHubとHugging Faceにオープンソース化
全パラメータファインチューニングをサポート
開発者がブランド専用の音声イメージを簡単に構築可能

オープンソースと可用性

Qwen3-TTS全シリーズモデルは完全にオープンソース化され、以下をサポートします：

無料商用利用
ローカルデプロイメント
二次開発
API呼び出し

アクセス

GitHubリポジトリ：https://github.com/QwenLM/Qwen3-TTS
HuggingFaceモデルライブラリ：https://huggingface.co/collections/Qwen/qwen3-tts
ModelScope：https://www.modelscope.cn/collections/Qwen/Qwen3-TTS
Qwen API：公式APIで直接体験可能

技術的意義

Qwen3-TTSのオープンソース化は、音声合成分野に複数のブレークスルーをもたらしました：

超低レイテンシ：97msのエンドツーエンドレイテンシは人間の会話応答速度に近い
高忠実度クローニング：3秒の音声で音声クローニングを実現
クロスランゲージ能力：単一音声で10言語のシームレスな切り替えをサポート
自然言語制御：テキスト記述で音声デザインを実現
オープンソースエコシステム：リアルタイム、パーソナライズ、多言語音声AIのハードルを大幅に低下

Qwen3-TTSのオープンソース化により、リアルタイム、パーソナライズ、多言語音声AIのハードルが大幅に低下しました。コンテンツクリエイター、開発者、エンタープライズアプリケーションのいずれであっても、新たな音声インタラクション革命を迎えることになります。