Alibaba Qwen выпускает Qwen3-TTS - модель синтеза речи со сверхнизкой задержкой 97мс

22 января 2026 года команда Alibaba Qwen официально опубликовала в открытом доступе серию моделей генерации голоса Qwen3-TTS, мощную систему синтеза речи, которая всесторонне поддерживает клонирование голоса, создание голоса, генерацию сверхвысококачественного гуманизированного голоса и управление голосом на основе естественного языка. Выпуск этой серии моделей считается важным прорывом в области синтеза речи.

Основная инновация

Моделирование Dual-Track

Основная инновация Qwen3-TTS заключается в гибридном механизме потоковой генерации Dual-Track (двойной трек), в сочетании с дискретными многокодовыми языковыми моделями, напрямую моделирующими речь от начала до конца, избегая узких мест информации традиционных каскадных архитектур (таких как LM+DiT).

Эта инновационная архитектура достигает:

Сверхнизкая задержка: Задержка синтеза от начала до конца всего 97мс
Мгновенный ответ: Вывод первого аудиопакета всего с 1 символом ввода
Поддержка двойного режима: Одна модель поддерживает как потоковую, так и непотоковую генерацию

Эта предельная скорость отклика приближается к скорости отклика человеческого разговора, идеально подходя для чувствительных к задержке сценариев, таких как живое взаимодействие, перевод в реальном времени и AI-обслуживание клиентов.

Qwen3-TTS-Tokenizer-12Hz

Модель опирается на инновационный многокодовый речевой кодировщик Qwen3-TTS-Tokenizer-12Hz, достигая эффективного сжатия и сильной способности представления речевых сигналов:

Полностью сохраняет паралингвистическую информацию (такую как интонация, ритм, эмоция)
Сохраняет характеристики акустической среды
Достигает высокоскоростного, высокоточного восстановления речи через легкую не-DiT архитектуру

Архитектура дискретной многокодовой LM

Принимает архитектуру дискретной многокодовой языковой модели (LM), достигая сквозного моделирования полной речевой информации:

Полностью избегает узких мест информации традиционных решений LM+DiT
Избегает каскадных ошибок
Значительно улучшает универсальность модели, эффективность генерации и потолок производительности

Серия моделей

Qwen3-TTS предоставляет два масштаба параметров для удовлетворения различных потребностей сценариев:

Серия моделей 1.7B

Предельная производительность, мощный контроль

Qwen3-TTS-12Hz-1.7B-VoiceDesign

Выполняет дизайн голоса на основе описаний на естественном языке, предоставленных пользователем
Может свободно определять акустические атрибуты, личность и фоновую информацию
Создает уникальные кастомизированные голоса

Qwen3-TTS-12Hz-1.7B-CustomVoice

Обеспечивает контроль стиля над целевыми голосами через пользовательские инструкции
Поддерживает 9 премиальных голосов, охватывающих различные комбинации пола, возраста, языка и диалекта
Может гибко контролировать голос, эмоцию, просодию и другие многомерные акустические атрибуты через инструкции

Qwen3-TTS-12Hz-1.7B-Base

Базовая модель, поддерживает быстрое клонирование голоса из 3-секундного аудио, предоставленного пользователем
Может использоваться для тонкой настройки других моделей
Обеспечивает максимальную гибкость и пространство для кастомизации

Серия моделей 0.6B

Баланс производительности и эффективности

Qwen3-TTS-12Hz-0.6B-CustomVoice

Поддерживает 9 премиальных голосов
Значительно снижает потребление ресурсов при сохранении хороших результатов
Подходит для развертывания на периферийных устройствах с ограниченными ресурсами или мобильных устройствах

Qwen3-TTS-12Hz-0.6B-Base

Базовая модель, поддерживает быстрое клонирование голоса за 3 секунды
Более низкие требования к вычислительным ресурсам
Подходит для сценариев развертывания с высокой конкуренцией

Основные функции

Быстрое клонирование голоса за 3 секунды

Способность клонирования голоса особенно впечатляет:

Всего 3 секунды эталонного аудио для достижения высокоточной репликации голоса с нулевым обучением
Клонированные голоса поддерживают бесшовную кросс-языковую миграцию
Китайские голоса могут напрямую говорить на английском, японском, корейском и еще 10 языках
Одновременно сохраняет исходные характеристики голоса

Кросс-языковая/диалектная миграция без потерь

Поддерживает 10 основных языков: китайский, английский, японский, корейский, немецкий, французский, русский, португальский, испанский, итальянский
Поддерживает несколько китайских диалектов: сычуаньский диалект, пекинский диалект и т.д.
Высокоточное восстановление акцента и обаяния
Открывает новые возможности для многоязычного создания контента и приложений локализации

Дизайн голоса на естественном языке

Функция Voice Design позволяет пользователям кастомизировать голоса через инструкции на естественном языке:

"Используйте мягкий ободряющий зрелый женский голос для рассказа историй"
"Используйте взволнованный высокий молодой мужской голос для комментирования игр"
Модель автоматически регулирует интонацию, эмоцию и ритм
Генерирует высоко персонализированные выражения

Эта способность контроля "что вы представляете, то и слышите" особенно полезна в производстве аудиокниг: один человек может играть несколько ролей, овладевая эмоциональными взлетами и падениями и переключением диалектов.

Интеллектуальное понимание контекста

Модель имеет сильные способности семантического понимания текста:

Может автоматически регулировать тон, ритм и эмоцию на основе входного текста
Адаптируется к различным потребностям сценариев
Значительно улучшенная устойчивость к шуму входного текста
Достигает гуманизированного естественного выражения

Производительность

Согласованность контента (WER)

Отличная производительность в оценке согласованности контента:

Китайский: WER 0.77
Английский: WER 1.24

Управляемая генерация речи

Qwen3-TTS-12Hz-1.7B-CustomVoice показывает сильную производительность в следующих метриках:

APS (Audio Prosody Similarity): Высокое сходство просодии
DSD (Duration Similarity Distance): Точный контроль длительности
RP (Rhythm Preservation): Отличное сохранение ритма

Дизайн голоса

Qwen3-TTS-12Hz-1.7B-VoiceDesign достигает уровня SOTA (State-of-the-Art) в задачах дизайна голоса.

Речевой кодировщик

Qwen-TTS-Tokenizer-12Hz показывает отличную производительность в следующих метриках:

PESQ: Перцептивная оценка качества речи
STOI: Краткосрочная объективная разборчивость
UTMOS: Средний балл мнений
SIM: Сходство

Сценарии применения

Интеллектуальные голосовые помощники

Обеспечивает естественное голосовое взаимодействие для устройств умного дома и автомобильных систем
Поддерживает несколько языков и диалектов
Улучшает пользовательский опыт

Создание контента

Быстро конвертирует текст в естественную речь
Поддерживает несколько голосов и эмоциональных выражений
Подходит для аудиокниг и озвучивания видео
Один человек играет несколько ролей, производя высококачественный аудио контент

Образование

Обеспечивает многоязычный, многоголосовой речевой вывод для изучения языков и онлайн-обучения
Улучшает эффективность обучения
Поддерживает обучение диалектам

Игры и развлечения

Генерирует персонализированные голоса для игровых персонажей
Поддерживает регулировку эмоций и тона
Улучшает погружение в игры

Обслуживание клиентов

Обеспечивает естественное, дружелюбное голосовое взаимодействие для интеллектуального обслуживания клиентов
Поддерживает диалог в реальном времени
Снижает затраты на обслуживание клиентов

Взаимодействие в прямом эфире

Сверхнизкая задержка удовлетворяет потребности взаимодействия в реальном времени
Поддерживает многоязычную прямую трансляцию
Улучшает опыт аудитории

Технические преимущества

Архитектура от начала до конца

Избегает узких мест информации традиционных каскадных архитектур
Снижает каскадные ошибки
Улучшает общую производительность

Легкий и эффективный

Не-DiT архитектура эффективно улучшает вычислительную эффективность при обеспечении высокоточного восстановления
Модель 0.6B подходит для развертывания на периферийных устройствах
Модель 1.7B стремится к предельной производительности

Дружественный к открытому исходному коду

Полная серия открыта на GitHub и Hugging Face
Поддерживает тонкую настройку полных параметров
Разработчики могут легко создавать специфичные для бренда голосовые образы

Открытый исходный код и доступность

Полная серия моделей Qwen3-TTS полностью открыта, поддерживая:

Бесплатное коммерческое использование
Локальное развертывание
Вторичную разработку
Вызовы API

Доступ

Репозиторий GitHub: https://github.com/QwenLM/Qwen3-TTS
Библиотека моделей HuggingFace: https://huggingface.co/collections/Qwen/qwen3-tts
ModelScope: https://www.modelscope.cn/collections/Qwen/Qwen3-TTS
API Qwen: Можно испытать напрямую через официальный API

Техническое значение

Открытый исходный код Qwen3-TTS приносит несколько прорывов в область синтеза речи:

Сверхнизкая задержка: Задержка от начала до конца 97мс приближается к скорости отклика человеческого разговора
Высокоточное клонирование: Клонирование голоса достижимо с 3 секундами аудио
Кросс-языковая способность: Один голос поддерживает бесшовное переключение между 10 языками
Контроль на естественном языке: Дизайн голоса достижим через текстовые описания
Экосистема открытого исходного кода: Значительно снижает барьеры для AI голоса в реальном времени, персонализированного и многоязычного

С открытым исходным кодом Qwen3-TTS барьеры для AI голоса в реальном времени, персонализированного и многоязычного были значительно снижены. Будь то создатели контента, разработчики или корпоративные приложения, все встретят новую волну революции голосового взаимодействия.

Связанные ссылки

Репозиторий GitHub: https://github.com/QwenLM/Qwen3-TTS
Модель HuggingFace: https://huggingface.co/collections/Qwen/qwen3-tts
ModelScope: https://www.modelscope.cn/collections/Qwen/Qwen3-TTS
Официальный блог Qwen: https://qwenlm.github.io/blog/qwen3-tts/