Lanzamiento de IndexTTS 1.5: Modelo de Síntesis de Voz Chino e Inglés de Alta Calidad

Recientemente, el equipo de IndexTTS lanzó la nueva versión IndexTTS 1.5, un modelo avanzado de texto a voz (TTS) estilo GPT. La nueva versión logra mejoras significativas en la estabilidad del modelo y la síntesis de voz en inglés, proporcionando a los usuarios una experiencia de síntesis de voz más fluida y natural.

Características Principales

IndexTTS 1.5 incluye las siguientes características principales:

Optimización de Pronunciación China: Soporta el uso de pinyin para corregir la pronunciación de caracteres chinos, asegurando la precisión del habla sintetizada
Control Flexible de Pausas: Controla con precisión las pausas en cualquier posición del habla mediante signos de puntuación
Audio de Alta Calidad: Integra la tecnología BigVGAN2 para optimizar la calidad del audio y la similitud del timbre de voz
Soporte Bilingüe: Soporta síntesis de voz tanto en chino como en inglés, con un rendimiento en inglés significativamente mejorado en la nueva versión
Clonación de Voz: Soporta clonación de voz de cero disparos, requiriendo solo 5-10 segundos de audio de referencia para lograr la replicación de voz

Resultados de Rendimiento

IndexTTS 1.5 demuestra un rendimiento excelente en múltiples pruebas de referencia:

Pruebas de Tasa de Error de Palabras (WER)

En el conjunto de datos seed-test, IndexTTS 1.5 logró el mejor rendimiento:

Prueba china: 0.821 (comparado con la línea base humana 1.26)
Prueba inglesa: 1.606 (comparado con la línea base humana 2.14)
Prueba difícil: 6.565

Puntuaciones de Similitud del Hablante

En la evaluación subjetiva de clonación de voz, IndexTTS logró las puntuaciones más altas en prosodia (3.79), timbre (4.20) y calidad (4.05), con una puntuación promedio de 4.01.

Integración con ComfyUI

Los usuarios pueden usar fácilmente IndexTTS a través de ComfyUI:

Buscar "IndexTTS" en el administrador de nodos de ComfyUI para la instalación
Descargar archivos del modelo al directorio models/TTS/Index-TTS
Subir archivo de audio de referencia de 5-10 segundos
Introducir el texto a sintetizar para generar voz

El plugin requiere aproximadamente 8GB de VRAM, adecuado para la mayoría de tarjetas gráficas de consumo.

Experiencia en Línea

Puedes experimentar los efectos de IndexTTS a través de la siguiente plataforma en línea: https://huggingface.co/spaces/IndexTeam/IndexTTS

Arquitectura Técnica

IndexTTS está construido sobre las tecnologías XTTS y Tortoise, utilizando un codificador de condicionamiento Conformer y un decodificador de voz BigVGAN2. El modelo está entrenado en decenas de miles de horas de datos de voz, asegurando un rendimiento excelente.

Para escenarios chinos, el equipo introdujo un enfoque de modelado híbrido carácter-pinyin, permitiendo a los usuarios corregir rápidamente caracteres mal pronunciados, lo cual es significativo para aplicaciones TTS chinas.

Cronología de Desarrollo

14 de mayo de 2025: Lanzamiento de la versión IndexTTS 1.5, mejorando significativamente la estabilidad del modelo y el rendimiento en inglés
25 de marzo de 2025: Lanzamiento de parámetros del modelo IndexTTS 1.0 y código de inferencia
12 de febrero de 2025: Presentación del paper en arXiv y lanzamiento de demos y conjuntos de prueba

Enlaces Relacionados

IndexTTS es desarrollado por un equipo dedicado al avance de la tecnología de síntesis de voz. La naturaleza de código abierto de este proyecto proporciona un fuerte apoyo para la investigación y el desarrollo de aplicaciones en el campo de la síntesis de voz.