Black Forest Labs выпускает открытую версию FLUX.1 Krea [dev] с нативной поддержкой ComfyUI
31.07.2025
Выпуск IndexTTS 1.5: высококачественная модель преобразования текста в речь для китайского и английского языков
Недавно команда IndexTTS выпустила новую версию IndexTTS 1.5, продвинутую GPT-стиль модель преобразования текста в речь (TTS). Новая версия достигает значительных улучшений в стабильности модели и синтезе английской речи, предоставляя пользователям более плавный и естественный опыт синтеза речи.
Ключевые особенности
IndexTTS 1.5 включает следующие основные особенности:
- Оптимизация китайского произношения: Поддерживает использование пиньинь для исправления произношения китайских символов, обеспечивая точность синтезированной речи
- Гибкое управление паузами: Точное управление паузами в любой позиции речи через знаки пунктуации
- Высококачественное аудио: Интегрирует технологию BigVGAN2 для оптимизации качества аудио и сходства тембра голоса
- Двуязычная поддержка: Поддерживает синтез речи на китайском и английском языках, со значительно улучшенной производительностью английского языка в новой версии
- Клонирование голоса: Поддерживает zero-shot клонирование голоса, требуя только 5-10 секунд референсного аудио для достижения репликации голоса
Результаты производительности
IndexTTS 1.5 демонстрирует отличную производительность в множественных бенчмарк-тестах:
Тестирование Word Error Rate (WER)
На наборе данных seed-test IndexTTS 1.5 достиг лучшей производительности:
- Китайский тест: 0.821 (по сравнению с человеческим базовым уровнем 1.26)
- Английский тест: 1.606 (по сравнению с человеческим базовым уровнем 2.14)
- Сложный тест: 6.565
Оценки сходства говорящего
В субъективной оценке клонирования голоса IndexTTS достиг наивысших оценок в просодии (3.79), тембре (4.20) и качестве (4.05), со средней оценкой 4.01.
Интеграция с ComfyUI
Пользователи могут легко использовать IndexTTS через ComfyUI:
- Найдите “IndexTTS” в менеджере узлов ComfyUI для установки
- Загрузите файлы модели в директорию
models/TTS/Index-TTS
- Загрузите 5-10 секунд референсного аудио файла
- Введите текст для синтеза для генерации речи
Плагин требует приблизительно 8 ГБ VRAM, подходит для большинства потребительских видеокарт.
Онлайн опыт
Вы можете испытать эффекты IndexTTS через следующую онлайн платформу: https://huggingface.co/spaces/IndexTeam/IndexTTS
Техническая архитектура
IndexTTS построен на технологиях XTTS и Tortoise, используя Conformer conditioning encoder и BigVGAN2 speech decoder. Модель обучена на десятках тысяч часов речевых данных, обеспечивая отличную производительность.
Для китайских сценариев команда ввела подход гибридного моделирования символов-пиньинь, позволяя пользователям быстро исправлять неправильно произносимые символы, что важно для китайских TTS приложений.
Временная шкала разработки
- 14 мая 2025: Выпущена версия IndexTTS 1.5, значительно улучшившая стабильность модели и производительность английского языка
- 25 марта 2025: Выпущены параметры модели IndexTTS 1.0 и код вывода
- 12 февраля 2025: Представлена статья на arXiv и выпущены демо и тестовые наборы
Связанные ссылки
IndexTTS разработан командой, посвященной продвижению технологии синтеза речи. Открытая природа этого проекта предоставляет сильную поддержку для исследований и разработки приложений в области синтеза речи.