IndexTTS 1.5リリース:高品質中国語・英語音声合成モデル
2025/05/23
IndexTTS 1.5リリース:高品質中国語・英語音声合成モデル
最近、IndexTTSチームは新しいバージョンIndexTTS 1.5をリリースしました。これは、GPTスタイルの先進的なテキスト音声合成(TTS)モデルです。新バージョンではモデルの安定性と英語音声合成において大幅な改善を実現し、ユーザーにより流暢で自然な音声合成体験を提供します。
主な特徴
IndexTTS 1.5には以下の核となる特徴があります:
- 中国語発音最適化:ピンインを使用して中国語文字の発音を訂正でき、合成音声の正確性を確保
- 柔軟な一時停止制御:句読点を通じて音声の任意の位置で一時停止を精密に制御
- 高品質オーディオ:BigVGAN2技術を統合し、音質と声色の類似性を最適化
- バイリンガルサポート:中国語と英語の音声合成をサポート、新バージョンでは英語性能が大幅に改善
- 音声クローニング:ゼロショット音声クローニングをサポート、5-10秒の参照音声のみで音声複製を実現
性能結果
IndexTTS 1.5は複数のベンチマークテストで優秀な性能を示しています:
単語誤り率(WER)テスト
seed-testデータセットにおいて、IndexTTS 1.5は最高の性能を達成:
- 中国語テスト:0.821(人間ベースライン1.26と比較)
- 英語テスト:1.606(人間ベースライン2.14と比較)
- 困難テスト:6.565
話者類似性スコア
音声クローニングの主観評価において、IndexTTSは韻律(3.79)、音色(4.20)、品質(4.05)で最高スコアを獲得し、平均スコア4.01を記録しました。
ComfyUI統合
ユーザーはComfyUIを通じてIndexTTSを簡単に使用できます:
- ComfyUIノードマネージャーで「IndexTTS」を検索してインストール
- モデルファイルを
models/TTS/Index-TTS
ディレクトリにダウンロード - 5-10秒の参照音声ファイルをアップロード
- 合成したいテキストを入力して音声を生成
プラグインは約8GBのVRAMを必要とし、ほとんどのコンシューマー向けグラフィックカードに適しています。
オンライン体験
以下のオンラインプラットフォームでIndexTTSの効果を体験できます:https://huggingface.co/spaces/IndexTeam/IndexTTS
技術アーキテクチャ
IndexTTSはXTTSとTortoise技術をベースに構築され、Conformer条件エンコーダーとBigVGAN2音声デコーダーを使用しています。モデルは数万時間の音声データで訓練され、優秀な性能を保証しています。
中国語シナリオについては、チームは文字-ピンインハイブリッドモデリングアプローチを導入し、ユーザーが発音を間違えた文字を迅速に訂正できるようにしました。これは中国語TTSアプリケーションにとって重要な意味を持ちます。
開発タイムライン
- 2025年5月14日:IndexTTS 1.5バージョンをリリース、モデルの安定性と英語性能を大幅に改善
- 2025年3月25日:IndexTTS 1.0モデルパラメータと推論コードをリリース
- 2025年2月12日:arXivに論文を投稿し、デモとテストセットをリリース
関連リンク
IndexTTSは音声合成技術の発展に専念するチームによって開発されています。このプロジェクトのオープンソースな性質は、音声合成分野の研究とアプリケーション開発に強力なサポートを提供しています。