IndexTTS 1.5版本发布：高质量中英文语音合成模型

近日，IndexTTS团队发布了新版本IndexTTS 1.5，这是一款基于GPT架构的先进文本转语音(TTS)模型。新版本在模型稳定性和英语语音合成方面实现了显著提升，为用户提供更加流畅和自然的语音合成体验。

主要特点

IndexTTS 1.5具有以下核心特点：

在多项基准测试中，IndexTTS 1.5展现出优异的性能：

在seed-test测试集上，IndexTTS 1.5取得了最佳表现：

在语音克隆的主观评价中，IndexTTS在语调(3.79)、音色(4.20)和质量(4.05)方面均获得最高评分，平均得分达到4.01。

用户可以通过ComfyUI轻松使用IndexTTS：

该插件显存占用约8GB，适合大部分消费级显卡使用。

你可以通过以下在线平台体验IndexTTS的效果：https://huggingface.co/spaces/IndexTeam/IndexTTS

IndexTTS基于XTTS和Tortoise技术构建，采用Conformer条件编码器和BigVGAN2语音解码器。模型在数万小时的语音数据上进行训练，确保了出色的性能表现。

对于中文场景，团队引入了字符-拼音混合建模方法，使用户能够快速纠正发音错误的字符，这对中文TTS应用具有重要意义。