IndexTTS 1.5リリース：高品質中国語・英語音声合成モデル

最近、IndexTTSチームは新しいバージョンIndexTTS 1.5をリリースしました。これは、GPTスタイルの先進的なテキスト音声合成（TTS）モデルです。新バージョンではモデルの安定性と英語音声合成において大幅な改善を実現し、ユーザーにより流暢で自然な音声合成体験を提供します。

主な特徴

IndexTTS 1.5には以下の核となる特徴があります：

IndexTTS 1.5は複数のベンチマークテストで優秀な性能を示しています：

seed-testデータセットにおいて、IndexTTS 1.5は最高の性能を達成：

音声クローニングの主観評価において、IndexTTSは韻律（3.79）、音色（4.20）、品質（4.05）で最高スコアを獲得し、平均スコア4.01を記録しました。

ユーザーはComfyUIを通じてIndexTTSを簡単に使用できます：

プラグインは約8GBのVRAMを必要とし、ほとんどのコンシューマー向けグラフィックカードに適しています。

以下のオンラインプラットフォームでIndexTTSの効果を体験できます：https://huggingface.co/spaces/IndexTeam/IndexTTS

IndexTTSはXTTSとTortoise技術をベースに構築され、Conformer条件エンコーダーとBigVGAN2音声デコーダーを使用しています。モデルは数万時間の音声データで訓練され、優秀な性能を保証しています。

中国語シナリオについては、チームは文字-ピンインハイブリッドモデリングアプローチを導入し、ユーザーが発音を間違えた文字を迅速に訂正できるようにしました。これは中国語TTSアプリケーションにとって重要な意味を持ちます。