Sortie d’IndexTTS 1.5 : Modèle de Synthèse Vocale Chinois et Anglais de Haute Qualité
Récemment, l’équipe IndexTTS a lancé la nouvelle version IndexTTS 1.5, un modèle avancé de synthèse vocale (TTS) de style GPT. La nouvelle version réalise des améliorations significatives dans la stabilité du modèle et la synthèse vocale anglaise, offrant aux utilisateurs une expérience de synthèse vocale plus fluide et naturelle.
Caractéristiques Principales
IndexTTS 1.5 comprend les caractéristiques principales suivantes :
- Optimisation de la Prononciation Chinoise : Supporte l’utilisation du pinyin pour corriger la prononciation des caractères chinois, assurant la précision de la parole synthétisée
- Contrôle Flexible des Pauses : Contrôle précisément les pauses à n’importe quelle position dans la parole grâce aux signes de ponctuation
- Audio de Haute Qualité : Intègre la technologie BigVGAN2 pour optimiser la qualité audio et la similarité du timbre vocal
- Support Bilingue : Supporte la synthèse vocale en chinois et en anglais, avec des performances anglaises significativement améliorées dans la nouvelle version
- Clonage Vocal : Supporte le clonage vocal zéro-shot, nécessitant seulement 5-10 secondes d’audio de référence pour réaliser la réplication vocale
Résultats de Performance
IndexTTS 1.5 démontre d’excellentes performances à travers plusieurs tests de référence :
Tests de Taux d’Erreur de Mots (WER)
Sur le jeu de données seed-test, IndexTTS 1.5 a atteint les meilleures performances :
- Test chinois : 0.821 (comparé à la référence humaine 1.26)
- Test anglais : 1.606 (comparé à la référence humaine 2.14)
- Test difficile : 6.565
Scores de Similarité du Locuteur
Dans l’évaluation subjective du clonage vocal, IndexTTS a atteint les scores les plus élevés en prosodie (3.79), timbre (4.20) et qualité (4.05), avec un score moyen de 4.01.
Intégration ComfyUI
Les utilisateurs peuvent facilement utiliser IndexTTS via ComfyUI :
- Rechercher “IndexTTS” dans le gestionnaire de nœuds ComfyUI pour l’installation
- Télécharger les fichiers du modèle dans le répertoire
models/TTS/Index-TTS
- Téléverser un fichier audio de référence de 5-10 secondes
- Saisir le texte à synthétiser pour générer la parole
Le plugin nécessite environ 8GB de VRAM, adapté à la plupart des cartes graphiques grand public.
Expérience en Ligne
Vous pouvez expérimenter les effets d’IndexTTS via la plateforme en ligne suivante : https://huggingface.co/spaces/IndexTeam/IndexTTS
Architecture Technique
IndexTTS est construit sur les technologies XTTS et Tortoise, utilisant un encodeur de conditionnement Conformer et un décodeur vocal BigVGAN2. Le modèle est entraîné sur des dizaines de milliers d’heures de données vocales, assurant d’excellentes performances.
Pour les scénarios chinois, l’équipe a introduit une approche de modélisation hybride caractère-pinyin, permettant aux utilisateurs de corriger rapidement les caractères mal prononcés, ce qui est significatif pour les applications TTS chinoises.
Chronologie de Développement
- 14 mai 2025 : Sortie de la version IndexTTS 1.5, améliorant significativement la stabilité du modèle et les performances anglaises
- 25 mars 2025 : Sortie des paramètres du modèle IndexTTS 1.0 et du code d’inférence
- 12 février 2025 : Soumission du papier sur arXiv et sortie des démos et jeux de tests
Liens Connexes
IndexTTS est développé par une équipe dédiée à l’avancement de la technologie de synthèse vocale. La nature open-source de ce projet fournit un support solide pour la recherche et le développement d’applications dans le domaine de la synthèse vocale.