IndexTTS 1.5 출시: 고품질 중국어·영어 음성 합성 모델

최근 IndexTTS 팀이 새로운 버전인 IndexTTS 1.5를 출시했습니다. 이는 GPT 스타일의 고급 텍스트 음성 변환(TTS) 모델입니다. 새 버전은 모델 안정성과 영어 음성 합성에서 상당한 개선을 달성하여 사용자에게 더욱 유창하고 자연스러운 음성 합성 경험을 제공합니다.

주요 특징

IndexTTS 1.5는 다음과 같은 핵심 특징을 포함합니다:

중국어 발음 최적화: 병음을 사용하여 중국어 문자의 발음을 교정할 수 있어 합성 음성의 정확성을 보장
유연한 일시정지 제어: 구두점을 통해 음성의 임의 위치에서 일시정지를 정밀하게 제어
고품질 오디오: BigVGAN2 기술을 통합하여 음질과 음색 유사성을 최적화
이중 언어 지원: 중국어와 영어 음성 합성을 지원하며, 새 버전에서 영어 성능이 크게 개선됨
음성 복제: 제로샷 음성 복제를 지원하여 5-10초의 참조 오디오만으로 음성 복제 실현

성능 결과

IndexTTS 1.5는 여러 벤치마크 테스트에서 우수한 성능을 보여줍니다:

단어 오류율(WER) 테스트

seed-test 데이터셋에서 IndexTTS 1.5가 최고 성능을 달성:

중국어 테스트: 0.821 (인간 기준선 1.26 대비)
영어 테스트: 1.606 (인간 기준선 2.14 대비)
어려운 테스트: 6.565

화자 유사성 점수

음성 복제의 주관적 평가에서 IndexTTS는 운율(3.79), 음색(4.20), 품질(4.05)에서 최고 점수를 획득하여 평균 점수 4.01을 기록했습니다.

ComfyUI 통합

사용자는 ComfyUI를 통해 IndexTTS를 쉽게 사용할 수 있습니다:

ComfyUI 노드 관리자에서 "IndexTTS"를 검색하여 설치
모델 파일을 models/TTS/Index-TTS 디렉토리에 다운로드
5-10초의 참조 오디오 파일 업로드
합성할 텍스트를 입력하여 음성 생성

플러그인은 약 8GB의 VRAM이 필요하며, 대부분의 소비자급 그래픽 카드에 적합합니다.

온라인 체험

다음 온라인 플랫폼에서 IndexTTS 효과를 체험할 수 있습니다: https://huggingface.co/spaces/IndexTeam/IndexTTS

기술 아키텍처

IndexTTS는 XTTS와 Tortoise 기술을 기반으로 구축되었으며, Conformer 조건부 인코더와 BigVGAN2 음성 디코더를 사용합니다. 모델은 수만 시간의 음성 데이터로 훈련되어 우수한 성능을 보장합니다.

중국어 시나리오의 경우, 팀은 문자-병음 하이브리드 모델링 접근법을 도입하여 사용자가 잘못 발음된 문자를 빠르게 교정할 수 있도록 했습니다. 이는 중국어 TTS 애플리케이션에 중요한 의미를 갖습니다.

개발 타임라인

2025년 5월 14일: IndexTTS 1.5 버전 출시, 모델 안정성과 영어 성능을 크게 개선
2025년 3월 25일: IndexTTS 1.0 모델 매개변수와 추론 코드 출시
2025년 2월 12일: arXiv에 논문 제출 및 데모와 테스트 세트 출시