Alibaba Qwen выпускает Qwen3-TTS - модель синтеза речи со сверхнизкой задержкой 97мс
22 января 2026 года команда Alibaba Qwen официально опубликовала в открытом доступе серию моделей генерации голоса Qwen3-TTS, мощную систему синтеза речи, которая всесторонне поддерживает клонирование голоса, создание голоса, генерацию сверхвысококачественного гуманизированного голоса и управление голосом на основе естественного языка. Выпуск этой серии моделей считается важным прорывом в области синтеза речи.
Основная инновация
Моделирование Dual-Track
Основная инновация Qwen3-TTS заключается в гибридном механизме потоковой генерации Dual-Track (двойной трек), в сочетании с дискретными многокодовыми языковыми моделями, напрямую моделирующими речь от начала до конца, избегая узких мест информации традиционных каскадных архитектур (таких как LM+DiT).
Эта инновационная архитектура достигает:
- Сверхнизкая задержка: Задержка синтеза от начала до конца всего 97мс
- Мгновенный ответ: Вывод первого аудиопакета всего с 1 символом ввода
- Поддержка двойного режима: Одна модель поддерживает как потоковую, так и непотоковую генерацию
Эта предельная скорость отклика приближается к скорости отклика человеческого разговора, идеально подходя для чувствительных к задержке сценариев, таких как живое взаимодействие, перевод в реальном времени и AI-обслуживание клиентов.
Qwen3-TTS-Tokenizer-12Hz
Модель опирается на инновационный многокодовый речевой кодировщик Qwen3-TTS-Tokenizer-12Hz, достигая эффективного сжатия и сильной способности представления речевых сигналов:
- Полностью сохраняет паралингвистическую информацию (такую как интонация, ритм, эмоция)
- Сохраняет характеристики акустической среды
- Достигает высокоскоростного, высокоточного восстановления речи через легкую не-DiT архитектуру
Архитектура дискретной многокодовой LM
Принимает архитектуру дискретной многокодовой языковой модели (LM), достигая сквозного моделирования полной речевой информации:
- Полностью избегает узких мест информации традиционных решений LM+DiT
- Избегает каскадных ошибок
- Значительно улучшает универсальность модели, эффективность генерации и потолок производительности
Серия моделей
Qwen3-TTS предоставляет два масштаба параметров для удовлетворения различных потребностей сценариев:
Серия моделей 1.7B
Предельная производительность, мощный контроль
Qwen3-TTS-12Hz-1.7B-VoiceDesign
- Выполняет дизайн голоса на основе описаний на естественном языке, предоставленных пользователем
- Может свободно определять акустические атрибуты, личность и фоновую информацию
- Создает уникальные кастомизированные голоса
Qwen3-TTS-12Hz-1.7B-CustomVoice
- Обеспечивает контроль стиля над целевыми голосами через пользовательские инструкции
- Поддерживает 9 премиальных голосов, охватывающих различные комбинации пола, возраста, языка и диалекта
- Может гибко контролировать голос, эмоцию, просодию и другие многомерные акустические атрибуты через инструкции
Qwen3-TTS-12Hz-1.7B-Base
- Базовая модель, поддерживает быстрое клонирование голоса из 3-секундного аудио, предоставленного пользователем
- Может использоваться для тонкой настройки других моделей
- Обеспечивает максимальную гибкость и пространство для кастомизации
Серия моделей 0.6B
Баланс производительности и эффективности
Qwen3-TTS-12Hz-0.6B-CustomVoice
- Поддерживает 9 премиальных голосов
- Значительно снижает потребление ресурсов при сохранении хороших результатов
- Подходит для развертывания на периферийных устройствах с ограниченными ресурсами или мобильных устройствах
Qwen3-TTS-12Hz-0.6B-Base
- Базовая модель, поддерживает быстрое клонирование голоса за 3 секунды
- Более низкие требования к вычислительным ресурсам
- Подходит для сценариев развертывания с высокой конкуренцией
Основные функции
Быстрое клонирование голоса за 3 секунды
Способность клонирования голоса особенно впечатляет:
- Всего 3 секунды эталонного аудио для достижения высокоточной репликации голоса с нулевым обучением
- Клонированные голоса поддерживают бесшовную кросс-языковую миграцию
- Китайские голоса могут напрямую говорить на английском, японском, корейском и еще 10 языках
- Одновременно сохраняет исходные характеристики голоса
Кросс-языковая/диалектная миграция без потерь
- Поддерживает 10 основных языков: китайский, английский, японский, корейский, немецкий, французский, русский, португальский, испанский, итальянский
- Поддерживает несколько китайских диалектов: сычуаньский диалект, пекинский диалект и т.д.
- Высокоточное восстановление акцента и обаяния
- Открывает новые возможности для многоязычного создания контента и приложений локализации
Дизайн голоса на естественном языке
Функция Voice Design позволяет пользователям кастомизировать голоса через инструкции на естественном языке:
- “Используйте мягкий ободряющий зрелый женский голос для рассказа историй”
- “Используйте взволнованный высокий молодой мужской голос для комментирования игр”
- Модель автоматически регулирует интонацию, эмоцию и ритм
- Генерирует высоко персонализированные выражения
Эта способность контроля “что вы представляете, то и слышите” особенно полезна в производстве аудиокниг: один человек может играть несколько ролей, овладевая эмоциональными взлетами и падениями и переключением диалектов.
Интеллектуальное понимание контекста
Модель имеет сильные способности семантического понимания текста:
- Может автоматически регулировать тон, ритм и эмоцию на основе входного текста
- Адаптируется к различным потребностям сценариев
- Значительно улучшенная устойчивость к шуму входного текста
- Достигает гуманизированного естественного выражения
Производительность
Согласованность контента (WER)
Отличная производительность в оценке согласованности контента:
- Китайский: WER 0.77
- Английский: WER 1.24
Управляемая генерация речи
Qwen3-TTS-12Hz-1.7B-CustomVoice показывает сильную производительность в следующих метриках:
- APS (Audio Prosody Similarity): Высокое сходство просодии
- DSD (Duration Similarity Distance): Точный контроль длительности
- RP (Rhythm Preservation): Отличное сохранение ритма
Дизайн голоса
Qwen3-TTS-12Hz-1.7B-VoiceDesign достигает уровня SOTA (State-of-the-Art) в задачах дизайна голоса.
Речевой кодировщик
Qwen-TTS-Tokenizer-12Hz показывает отличную производительность в следующих метриках:
- PESQ: Перцептивная оценка качества речи
- STOI: Краткосрочная объективная разборчивость
- UTMOS: Средний балл мнений
- SIM: Сходство
Сценарии применения
Интеллектуальные голосовые помощники
- Обеспечивает естественное голосовое взаимодействие для устройств умного дома и автомобильных систем
- Поддерживает несколько языков и диалектов
- Улучшает пользовательский опыт
Создание контента
- Быстро конвертирует текст в естественную речь
- Поддерживает несколько голосов и эмоциональных выражений
- Подходит для аудиокниг и озвучивания видео
- Один человек играет несколько ролей, производя высококачественный аудио контент
Образование
- Обеспечивает многоязычный, многоголосовой речевой вывод для изучения языков и онлайн-обучения
- Улучшает эффективность обучения
- Поддерживает обучение диалектам
Игры и развлечения
- Генерирует персонализированные голоса для игровых персонажей
- Поддерживает регулировку эмоций и тона
- Улучшает погружение в игры
Обслуживание клиентов
- Обеспечивает естественное, дружелюбное голосовое взаимодействие для интеллектуального обслуживания клиентов
- Поддерживает диалог в реальном времени
- Снижает затраты на обслуживание клиентов
Взаимодействие в прямом эфире
- Сверхнизкая задержка удовлетворяет потребности взаимодействия в реальном времени
- Поддерживает многоязычную прямую трансляцию
- Улучшает опыт аудитории
Технические преимущества
Архитектура от начала до конца
- Избегает узких мест информации традиционных каскадных архитектур
- Снижает каскадные ошибки
- Улучшает общую производительность
Легкий и эффективный
- Не-DiT архитектура эффективно улучшает вычислительную эффективность при обеспечении высокоточного восстановления
- Модель 0.6B подходит для развертывания на периферийных устройствах
- Модель 1.7B стремится к предельной производительности
Дружественный к открытому исходному коду
- Полная серия открыта на GitHub и Hugging Face
- Поддерживает тонкую настройку полных параметров
- Разработчики могут легко создавать специфичные для бренда голосовые образы
Открытый исходный код и доступность
Полная серия моделей Qwen3-TTS полностью открыта, поддерживая:
- Бесплатное коммерческое использование
- Локальное развертывание
- Вторичную разработку
- Вызовы API
Доступ
- Репозиторий GitHub: https://github.com/QwenLM/Qwen3-TTS
- Библиотека моделей HuggingFace: https://huggingface.co/collections/Qwen/qwen3-tts
- ModelScope: https://www.modelscope.cn/collections/Qwen/Qwen3-TTS
- API Qwen: Можно испытать напрямую через официальный API
Техническое значение
Открытый исходный код Qwen3-TTS приносит несколько прорывов в область синтеза речи:
- Сверхнизкая задержка: Задержка от начала до конца 97мс приближается к скорости отклика человеческого разговора
- Высокоточное клонирование: Клонирование голоса достижимо с 3 секундами аудио
- Кросс-языковая способность: Один голос поддерживает бесшовное переключение между 10 языками
- Контроль на естественном языке: Дизайн голоса достижим через текстовые описания
- Экосистема открытого исходного кода: Значительно снижает барьеры для AI голоса в реальном времени, персонализированного и многоязычного
С открытым исходным кодом Qwen3-TTS барьеры для AI голоса в реальном времени, персонализированного и многоязычного были значительно снижены. Будь то создатели контента, разработчики или корпоративные приложения, все встретят новую волну революции голосового взаимодействия.
Связанные ссылки
- Репозиторий GitHub: https://github.com/QwenLM/Qwen3-TTS
- Модель HuggingFace: https://huggingface.co/collections/Qwen/qwen3-tts
- ModelScope: https://www.modelscope.cn/collections/Qwen/Qwen3-TTS
- Официальный блог Qwen: https://qwenlm.github.io/blog/qwen3-tts/