Skip to content
Follow me on X
ComfyUI Wiki
НовостиAlibaba Qwen выпускает Qwen3-TTS - модель синтеза речи со сверхнизкой задержкой 97мс

Alibaba Qwen выпускает Qwen3-TTS - модель синтеза речи со сверхнизкой задержкой 97мс

22 января 2026 года команда Alibaba Qwen официально опубликовала в открытом доступе серию моделей генерации голоса Qwen3-TTS, мощную систему синтеза речи, которая всесторонне поддерживает клонирование голоса, создание голоса, генерацию сверхвысококачественного гуманизированного голоса и управление голосом на основе естественного языка. Выпуск этой серии моделей считается важным прорывом в области синтеза речи.

Основная инновация

Моделирование Dual-Track

Основная инновация Qwen3-TTS заключается в гибридном механизме потоковой генерации Dual-Track (двойной трек), в сочетании с дискретными многокодовыми языковыми моделями, напрямую моделирующими речь от начала до конца, избегая узких мест информации традиционных каскадных архитектур (таких как LM+DiT).

Эта инновационная архитектура достигает:

  • Сверхнизкая задержка: Задержка синтеза от начала до конца всего 97мс
  • Мгновенный ответ: Вывод первого аудиопакета всего с 1 символом ввода
  • Поддержка двойного режима: Одна модель поддерживает как потоковую, так и непотоковую генерацию

Эта предельная скорость отклика приближается к скорости отклика человеческого разговора, идеально подходя для чувствительных к задержке сценариев, таких как живое взаимодействие, перевод в реальном времени и AI-обслуживание клиентов.

Qwen3-TTS-Tokenizer-12Hz

Модель опирается на инновационный многокодовый речевой кодировщик Qwen3-TTS-Tokenizer-12Hz, достигая эффективного сжатия и сильной способности представления речевых сигналов:

  • Полностью сохраняет паралингвистическую информацию (такую как интонация, ритм, эмоция)
  • Сохраняет характеристики акустической среды
  • Достигает высокоскоростного, высокоточного восстановления речи через легкую не-DiT архитектуру

Архитектура дискретной многокодовой LM

Принимает архитектуру дискретной многокодовой языковой модели (LM), достигая сквозного моделирования полной речевой информации:

  • Полностью избегает узких мест информации традиционных решений LM+DiT
  • Избегает каскадных ошибок
  • Значительно улучшает универсальность модели, эффективность генерации и потолок производительности

Серия моделей

Qwen3-TTS предоставляет два масштаба параметров для удовлетворения различных потребностей сценариев:

Серия моделей 1.7B

Предельная производительность, мощный контроль

Qwen3-TTS-12Hz-1.7B-VoiceDesign

  • Выполняет дизайн голоса на основе описаний на естественном языке, предоставленных пользователем
  • Может свободно определять акустические атрибуты, личность и фоновую информацию
  • Создает уникальные кастомизированные голоса

Qwen3-TTS-12Hz-1.7B-CustomVoice

  • Обеспечивает контроль стиля над целевыми голосами через пользовательские инструкции
  • Поддерживает 9 премиальных голосов, охватывающих различные комбинации пола, возраста, языка и диалекта
  • Может гибко контролировать голос, эмоцию, просодию и другие многомерные акустические атрибуты через инструкции

Qwen3-TTS-12Hz-1.7B-Base

  • Базовая модель, поддерживает быстрое клонирование голоса из 3-секундного аудио, предоставленного пользователем
  • Может использоваться для тонкой настройки других моделей
  • Обеспечивает максимальную гибкость и пространство для кастомизации

Серия моделей 0.6B

Баланс производительности и эффективности

Qwen3-TTS-12Hz-0.6B-CustomVoice

  • Поддерживает 9 премиальных голосов
  • Значительно снижает потребление ресурсов при сохранении хороших результатов
  • Подходит для развертывания на периферийных устройствах с ограниченными ресурсами или мобильных устройствах

Qwen3-TTS-12Hz-0.6B-Base

  • Базовая модель, поддерживает быстрое клонирование голоса за 3 секунды
  • Более низкие требования к вычислительным ресурсам
  • Подходит для сценариев развертывания с высокой конкуренцией

Основные функции

Быстрое клонирование голоса за 3 секунды

Способность клонирования голоса особенно впечатляет:

  • Всего 3 секунды эталонного аудио для достижения высокоточной репликации голоса с нулевым обучением
  • Клонированные голоса поддерживают бесшовную кросс-языковую миграцию
  • Китайские голоса могут напрямую говорить на английском, японском, корейском и еще 10 языках
  • Одновременно сохраняет исходные характеристики голоса

Кросс-языковая/диалектная миграция без потерь

  • Поддерживает 10 основных языков: китайский, английский, японский, корейский, немецкий, французский, русский, португальский, испанский, итальянский
  • Поддерживает несколько китайских диалектов: сычуаньский диалект, пекинский диалект и т.д.
  • Высокоточное восстановление акцента и обаяния
  • Открывает новые возможности для многоязычного создания контента и приложений локализации

Дизайн голоса на естественном языке

Функция Voice Design позволяет пользователям кастомизировать голоса через инструкции на естественном языке:

  • “Используйте мягкий ободряющий зрелый женский голос для рассказа историй”
  • “Используйте взволнованный высокий молодой мужской голос для комментирования игр”
  • Модель автоматически регулирует интонацию, эмоцию и ритм
  • Генерирует высоко персонализированные выражения

Эта способность контроля “что вы представляете, то и слышите” особенно полезна в производстве аудиокниг: один человек может играть несколько ролей, овладевая эмоциональными взлетами и падениями и переключением диалектов.

Интеллектуальное понимание контекста

Модель имеет сильные способности семантического понимания текста:

  • Может автоматически регулировать тон, ритм и эмоцию на основе входного текста
  • Адаптируется к различным потребностям сценариев
  • Значительно улучшенная устойчивость к шуму входного текста
  • Достигает гуманизированного естественного выражения

Производительность

Согласованность контента (WER)

Отличная производительность в оценке согласованности контента:

  • Китайский: WER 0.77
  • Английский: WER 1.24

Управляемая генерация речи

Qwen3-TTS-12Hz-1.7B-CustomVoice показывает сильную производительность в следующих метриках:

  • APS (Audio Prosody Similarity): Высокое сходство просодии
  • DSD (Duration Similarity Distance): Точный контроль длительности
  • RP (Rhythm Preservation): Отличное сохранение ритма

Дизайн голоса

Qwen3-TTS-12Hz-1.7B-VoiceDesign достигает уровня SOTA (State-of-the-Art) в задачах дизайна голоса.

Речевой кодировщик

Qwen-TTS-Tokenizer-12Hz показывает отличную производительность в следующих метриках:

  • PESQ: Перцептивная оценка качества речи
  • STOI: Краткосрочная объективная разборчивость
  • UTMOS: Средний балл мнений
  • SIM: Сходство

Сценарии применения

Интеллектуальные голосовые помощники

  • Обеспечивает естественное голосовое взаимодействие для устройств умного дома и автомобильных систем
  • Поддерживает несколько языков и диалектов
  • Улучшает пользовательский опыт

Создание контента

  • Быстро конвертирует текст в естественную речь
  • Поддерживает несколько голосов и эмоциональных выражений
  • Подходит для аудиокниг и озвучивания видео
  • Один человек играет несколько ролей, производя высококачественный аудио контент

Образование

  • Обеспечивает многоязычный, многоголосовой речевой вывод для изучения языков и онлайн-обучения
  • Улучшает эффективность обучения
  • Поддерживает обучение диалектам

Игры и развлечения

  • Генерирует персонализированные голоса для игровых персонажей
  • Поддерживает регулировку эмоций и тона
  • Улучшает погружение в игры

Обслуживание клиентов

  • Обеспечивает естественное, дружелюбное голосовое взаимодействие для интеллектуального обслуживания клиентов
  • Поддерживает диалог в реальном времени
  • Снижает затраты на обслуживание клиентов

Взаимодействие в прямом эфире

  • Сверхнизкая задержка удовлетворяет потребности взаимодействия в реальном времени
  • Поддерживает многоязычную прямую трансляцию
  • Улучшает опыт аудитории

Технические преимущества

Архитектура от начала до конца

  • Избегает узких мест информации традиционных каскадных архитектур
  • Снижает каскадные ошибки
  • Улучшает общую производительность

Легкий и эффективный

  • Не-DiT архитектура эффективно улучшает вычислительную эффективность при обеспечении высокоточного восстановления
  • Модель 0.6B подходит для развертывания на периферийных устройствах
  • Модель 1.7B стремится к предельной производительности

Дружественный к открытому исходному коду

  • Полная серия открыта на GitHub и Hugging Face
  • Поддерживает тонкую настройку полных параметров
  • Разработчики могут легко создавать специфичные для бренда голосовые образы

Открытый исходный код и доступность

Полная серия моделей Qwen3-TTS полностью открыта, поддерживая:

  • Бесплатное коммерческое использование
  • Локальное развертывание
  • Вторичную разработку
  • Вызовы API

Доступ

Техническое значение

Открытый исходный код Qwen3-TTS приносит несколько прорывов в область синтеза речи:

  1. Сверхнизкая задержка: Задержка от начала до конца 97мс приближается к скорости отклика человеческого разговора
  2. Высокоточное клонирование: Клонирование голоса достижимо с 3 секундами аудио
  3. Кросс-языковая способность: Один голос поддерживает бесшовное переключение между 10 языками
  4. Контроль на естественном языке: Дизайн голоса достижим через текстовые описания
  5. Экосистема открытого исходного кода: Значительно снижает барьеры для AI голоса в реальном времени, персонализированного и многоязычного

С открытым исходным кодом Qwen3-TTS барьеры для AI голоса в реальном времени, персонализированного и многоязычного были значительно снижены. Будь то создатели контента, разработчики или корпоративные приложения, все встретят новую волну революции голосового взаимодействия.

Связанные ссылки