Lanzamiento de IndexTTS 1.5: Modelo de Síntesis de Voz Chino e Inglés de Alta Calidad
Recientemente, el equipo de IndexTTS lanzó la nueva versión IndexTTS 1.5, un modelo avanzado de texto a voz (TTS) estilo GPT. La nueva versión logra mejoras significativas en la estabilidad del modelo y la síntesis de voz en inglés, proporcionando a los usuarios una experiencia de síntesis de voz más fluida y natural.
Características Principales
IndexTTS 1.5 incluye las siguientes características principales:
- Optimización de Pronunciación China: Soporta el uso de pinyin para corregir la pronunciación de caracteres chinos, asegurando la precisión del habla sintetizada
- Control Flexible de Pausas: Controla con precisión las pausas en cualquier posición del habla mediante signos de puntuación
- Audio de Alta Calidad: Integra la tecnología BigVGAN2 para optimizar la calidad del audio y la similitud del timbre de voz
- Soporte Bilingüe: Soporta síntesis de voz tanto en chino como en inglés, con un rendimiento en inglés significativamente mejorado en la nueva versión
- Clonación de Voz: Soporta clonación de voz de cero disparos, requiriendo solo 5-10 segundos de audio de referencia para lograr la replicación de voz
Resultados de Rendimiento
IndexTTS 1.5 demuestra un rendimiento excelente en múltiples pruebas de referencia:
Pruebas de Tasa de Error de Palabras (WER)
En el conjunto de datos seed-test, IndexTTS 1.5 logró el mejor rendimiento:
- Prueba china: 0.821 (comparado con la línea base humana 1.26)
- Prueba inglesa: 1.606 (comparado con la línea base humana 2.14)
- Prueba difícil: 6.565
Puntuaciones de Similitud del Hablante
En la evaluación subjetiva de clonación de voz, IndexTTS logró las puntuaciones más altas en prosodia (3.79), timbre (4.20) y calidad (4.05), con una puntuación promedio de 4.01.
Integración con ComfyUI
Los usuarios pueden usar fácilmente IndexTTS a través de ComfyUI:
- Buscar “IndexTTS” en el administrador de nodos de ComfyUI para la instalación
- Descargar archivos del modelo al directorio
models/TTS/Index-TTS
- Subir archivo de audio de referencia de 5-10 segundos
- Introducir el texto a sintetizar para generar voz
El plugin requiere aproximadamente 8GB de VRAM, adecuado para la mayoría de tarjetas gráficas de consumo.
Experiencia en Línea
Puedes experimentar los efectos de IndexTTS a través de la siguiente plataforma en línea: https://huggingface.co/spaces/IndexTeam/IndexTTS
Arquitectura Técnica
IndexTTS está construido sobre las tecnologías XTTS y Tortoise, utilizando un codificador de condicionamiento Conformer y un decodificador de voz BigVGAN2. El modelo está entrenado en decenas de miles de horas de datos de voz, asegurando un rendimiento excelente.
Para escenarios chinos, el equipo introdujo un enfoque de modelado híbrido carácter-pinyin, permitiendo a los usuarios corregir rápidamente caracteres mal pronunciados, lo cual es significativo para aplicaciones TTS chinas.
Cronología de Desarrollo
- 14 de mayo de 2025: Lanzamiento de la versión IndexTTS 1.5, mejorando significativamente la estabilidad del modelo y el rendimiento en inglés
- 25 de marzo de 2025: Lanzamiento de parámetros del modelo IndexTTS 1.0 y código de inferencia
- 12 de febrero de 2025: Presentación del paper en arXiv y lanzamiento de demos y conjuntos de prueba
Enlaces Relacionados
IndexTTS es desarrollado por un equipo dedicado al avance de la tecnología de síntesis de voz. La naturaleza de código abierto de este proyecto proporciona un fuerte apoyo para la investigación y el desarrollo de aplicaciones en el campo de la síntesis de voz.