IndexTTS 1.5版本发布:高质量中英文语音合成模型
2025/05/23
IndexTTS 1.5版本发布:高质量中英文语音合成模型
近日,IndexTTS团队发布了新版本IndexTTS 1.5,这是一款基于GPT架构的先进文本转语音(TTS)模型。新版本在模型稳定性和英语语音合成方面实现了显著提升,为用户提供更加流畅和自然的语音合成体验。
主要特点
IndexTTS 1.5具有以下核心特点:
- 中文发音优化:支持使用拼音纠正中文字符的发音,确保合成语音的准确性
- 灵活停顿控制:可通过标点符号精确控制语音中任意位置的停顿
- 高质量音频:集成BigVGAN2技术,优化音频质量和语音音色相似度
- 双语支持:支持中文和英文语音合成,英语性能在新版本中得到显著改善
- 语音克隆:支持零样本语音克隆,仅需5-10秒的参考音频即可实现语音复制
性能表现
在多项基准测试中,IndexTTS 1.5展现出优异的性能:
词错误率(WER)测试
在seed-test测试集上,IndexTTS 1.5取得了最佳表现:
- 中文测试:0.821(相比人类基准1.26)
- 英文测试:1.606(相比人类基准2.14)
- 困难测试:6.565
语音相似度评分
在语音克隆的主观评价中,IndexTTS在语调(3.79)、音色(4.20)和质量(4.05)方面均获得最高评分,平均得分达到4.01。
ComfyUI集成
用户可以通过ComfyUI轻松使用IndexTTS:
- 在ComfyUI节点管理器中搜索”IndexTTS”进行安装
- 下载模型文件到
models/TTS/Index-TTS
目录 - 上传5-10秒的参考音频文件
- 输入要合成的文本即可生成语音
该插件显存占用约8GB,适合大部分消费级显卡使用。
在线体验
你可以通过以下在线平台体验IndexTTS的效果:https://huggingface.co/spaces/IndexTeam/IndexTTS
技术架构
IndexTTS基于XTTS和Tortoise技术构建,采用Conformer条件编码器和BigVGAN2语音解码器。模型在数万小时的语音数据上进行训练,确保了出色的性能表现。
对于中文场景,团队引入了字符-拼音混合建模方法,使用户能够快速纠正发音错误的字符,这对中文TTS应用具有重要意义。
发展历程
- 2025年5月14日:发布IndexTTS 1.5版本,显著改善模型稳定性和英语性能
- 2025年3月25日:发布IndexTTS 1.0模型参数和推理代码
- 2025年2月12日:在arXiv发表论文并发布演示和测试集
相关链接
IndexTTS由一支致力于语音合成技术发展的团队开发。该项目的开源特性为语音合成领域的研究和应用发展提供了有力支持。