Sortie d'IndexTTS 1.5 : Modèle de Synthèse Vocale Chinois et Anglais de Haute Qualité

Récemment, l'équipe IndexTTS a lancé la nouvelle version IndexTTS 1.5, un modèle avancé de synthèse vocale (TTS) de style GPT. La nouvelle version réalise des améliorations significatives dans la stabilité du modèle et la synthèse vocale anglaise, offrant aux utilisateurs une expérience de synthèse vocale plus fluide et naturelle.

Caractéristiques Principales

IndexTTS 1.5 comprend les caractéristiques principales suivantes :

Optimisation de la Prononciation Chinoise : Supporte l'utilisation du pinyin pour corriger la prononciation des caractères chinois, assurant la précision de la parole synthétisée
Contrôle Flexible des Pauses : Contrôle précisément les pauses à n'importe quelle position dans la parole grâce aux signes de ponctuation
Audio de Haute Qualité : Intègre la technologie BigVGAN2 pour optimiser la qualité audio et la similarité du timbre vocal
Support Bilingue : Supporte la synthèse vocale en chinois et en anglais, avec des performances anglaises significativement améliorées dans la nouvelle version
Clonage Vocal : Supporte le clonage vocal zéro-shot, nécessitant seulement 5-10 secondes d'audio de référence pour réaliser la réplication vocale

Résultats de Performance

IndexTTS 1.5 démontre d'excellentes performances à travers plusieurs tests de référence :

Tests de Taux d'Erreur de Mots (WER)

Sur le jeu de données seed-test, IndexTTS 1.5 a atteint les meilleures performances :

Test chinois : 0.821 (comparé à la référence humaine 1.26)
Test anglais : 1.606 (comparé à la référence humaine 2.14)
Test difficile : 6.565

Scores de Similarité du Locuteur

Dans l'évaluation subjective du clonage vocal, IndexTTS a atteint les scores les plus élevés en prosodie (3.79), timbre (4.20) et qualité (4.05), avec un score moyen de 4.01.

Intégration ComfyUI

Les utilisateurs peuvent facilement utiliser IndexTTS via ComfyUI :

Rechercher "IndexTTS" dans le gestionnaire de nœuds ComfyUI pour l'installation
Télécharger les fichiers du modèle dans le répertoire models/TTS/Index-TTS
Téléverser un fichier audio de référence de 5-10 secondes
Saisir le texte à synthétiser pour générer la parole

Le plugin nécessite environ 8GB de VRAM, adapté à la plupart des cartes graphiques grand public.

Expérience en Ligne

Vous pouvez expérimenter les effets d'IndexTTS via la plateforme en ligne suivante : https://huggingface.co/spaces/IndexTeam/IndexTTS

Architecture Technique

IndexTTS est construit sur les technologies XTTS et Tortoise, utilisant un encodeur de conditionnement Conformer et un décodeur vocal BigVGAN2. Le modèle est entraîné sur des dizaines de milliers d'heures de données vocales, assurant d'excellentes performances.

Pour les scénarios chinois, l'équipe a introduit une approche de modélisation hybride caractère-pinyin, permettant aux utilisateurs de corriger rapidement les caractères mal prononcés, ce qui est significatif pour les applications TTS chinoises.

Chronologie de Développement

14 mai 2025 : Sortie de la version IndexTTS 1.5, améliorant significativement la stabilité du modèle et les performances anglaises
25 mars 2025 : Sortie des paramètres du modèle IndexTTS 1.0 et du code d'inférence
12 février 2025 : Soumission du papier sur arXiv et sortie des démos et jeux de tests

Liens Connexes

IndexTTS est développé par une équipe dédiée à l'avancement de la technologie de synthèse vocale. La nature open-source de ce projet fournit un support solide pour la recherche et le développement d'applications dans le domaine de la synthèse vocale.