Выпуск IndexTTS 1.5: высококачественная модель преобразования текста в речь для китайского и английского языков

Недавно команда IndexTTS выпустила новую версию IndexTTS 1.5, продвинутую GPT-стиль модель преобразования текста в речь (TTS). Новая версия достигает значительных улучшений в стабильности модели и синтезе английской речи, предоставляя пользователям более плавный и естественный опыт синтеза речи.

Ключевые особенности

IndexTTS 1.5 включает следующие основные особенности:

Оптимизация китайского произношения: Поддерживает использование пиньинь для исправления произношения китайских символов, обеспечивая точность синтезированной речи
Гибкое управление паузами: Точное управление паузами в любой позиции речи через знаки пунктуации
Высококачественное аудио: Интегрирует технологию BigVGAN2 для оптимизации качества аудио и сходства тембра голоса
Двуязычная поддержка: Поддерживает синтез речи на китайском и английском языках, со значительно улучшенной производительностью английского языка в новой версии
Клонирование голоса: Поддерживает zero-shot клонирование голоса, требуя только 5-10 секунд референсного аудио для достижения репликации голоса

Результаты производительности

IndexTTS 1.5 демонстрирует отличную производительность в множественных бенчмарк-тестах:

Тестирование Word Error Rate (WER)

На наборе данных seed-test IndexTTS 1.5 достиг лучшей производительности:

Китайский тест: 0.821 (по сравнению с человеческим базовым уровнем 1.26)
Английский тест: 1.606 (по сравнению с человеческим базовым уровнем 2.14)
Сложный тест: 6.565

Оценки сходства говорящего

В субъективной оценке клонирования голоса IndexTTS достиг наивысших оценок в просодии (3.79), тембре (4.20) и качестве (4.05), со средней оценкой 4.01.

Интеграция с ComfyUI

Пользователи могут легко использовать IndexTTS через ComfyUI:

Найдите "IndexTTS" в менеджере узлов ComfyUI для установки
Загрузите файлы модели в директорию models/TTS/Index-TTS
Загрузите 5-10 секунд референсного аудио файла
Введите текст для синтеза для генерации речи

Плагин требует приблизительно 8 ГБ VRAM, подходит для большинства потребительских видеокарт.

Онлайн опыт

Вы можете испытать эффекты IndexTTS через следующую онлайн платформу: https://huggingface.co/spaces/IndexTeam/IndexTTS

Техническая архитектура

IndexTTS построен на технологиях XTTS и Tortoise, используя Conformer conditioning encoder и BigVGAN2 speech decoder. Модель обучена на десятках тысяч часов речевых данных, обеспечивая отличную производительность.

Для китайских сценариев команда ввела подход гибридного моделирования символов-пиньинь, позволяя пользователям быстро исправлять неправильно произносимые символы, что важно для китайских TTS приложений.

Временная шкала разработки

14 мая 2025: Выпущена версия IndexTTS 1.5, значительно улучшившая стабильность модели и производительность английского языка
25 марта 2025: Выпущены параметры модели IndexTTS 1.0 и код вывода
12 февраля 2025: Представлена статья на arXiv и выпущены демо и тестовые наборы

Связанные ссылки

IndexTTS разработан командой, посвященной продвижению технологии синтеза речи. Открытая природа этого проекта предоставляет сильную поддержку для исследований и разработки приложений в области синтеза речи.