Skip to content
Follow me on X
ComfyUI Wiki
新闻阿里通义千问发布 Qwen3-TTS - 97ms 超低延迟语音合成模型

阿里通义千问发布 Qwen3-TTS - 97ms 超低延迟语音合成模型

2026年1月22日,阿里巴巴通义千问团队正式开源 Qwen3-TTS 系列语音生成模型,这是一个功能强大的语音合成系统,全面支持音色克隆、音色创造、超高质量拟人化语音生成,以及基于自然语言描述的语音控制。该系列模型的发布被视为语音合成领域的重大突破。

核心创新

Dual-Track 双轨建模

Qwen3-TTS 的核心创新在于 Dual-Track(双轨)混合流式生成机制,结合离散多码本语言模型,直接端到端建模语音,避免了传统级联架构(如 LM+DiT)的信息瓶颈。

这种创新架构实现了:

  • 极致低延迟:端到端合成延迟低至 97ms
  • 即时响应:输入仅 1 个字符 即可输出首包音频
  • 双模式支持:单模型同时兼容流式与非流式生成

这种极致响应速度接近人类对话的响应速度,非常适合直播互动、实时翻译、AI 智能客服等对时延敏感的场景。

Qwen3-TTS-Tokenizer-12Hz

模型依托创新的 Qwen3-TTS-Tokenizer-12Hz 多码本语音编码器,实现了对语音信号的高效压缩与强表征能力:

  • 完整保留副语言信息(如语调、节奏、情感)
  • 保留声学环境特征
  • 通过轻量级的 非 DiT 架构 实现高速、高保真的语音还原

离散多码本 LM 架构

采用离散多码本语言模型(LM)架构,实现语音全信息端到端建模:

  • 彻底规避传统 LM+DiT 方案的信息瓶颈
  • 避免级联误差
  • 显著提升模型的通用性、生成效率与效果上限

模型系列

Qwen3-TTS 提供两种参数规模,满足不同场景需求:

1.7B 模型系列

极致性能,强大控制

Qwen3-TTS-12Hz-1.7B-VoiceDesign

  • 根据用户输入的自然语言描述进行音色设计
  • 可自由定义声学属性、人设和背景信息
  • 创造出独特的定制化音色

Qwen3-TTS-12Hz-1.7B-CustomVoice

  • 通过用户指令对目标音色进行风格控制
  • 支持 9 种优质音色,涵盖性别、年龄、语言和方言的多种组合
  • 可根据指令灵活调控音色、情感、韵律等多维声学属性

Qwen3-TTS-12Hz-1.7B-Base

  • 基础模型,支持从用户输入的 3 秒音频 快速克隆声音
  • 可用于微调(Fine-tuning)其他模型
  • 提供最大的灵活性和定制空间

0.6B 模型系列

均衡性能与效率

Qwen3-TTS-12Hz-0.6B-CustomVoice

  • 支持 9 种优质音色
  • 在保持良好效果的前提下,大幅降低资源消耗
  • 适合部署在资源受限的边缘设备或移动端

Qwen3-TTS-12Hz-0.6B-Base

  • 基础模型,支持 3 秒快速音色克隆
  • 更低的计算资源需求
  • 适合高并发部署场景

核心功能

3 秒极速音色克隆

语音克隆能力尤为惊艳:

  • 仅需 3 秒参考音频,即可实现高保真零样本音色复刻
  • 克隆后的音色支持 跨语种无缝迁移
  • 中文音色可直接用于说英语、日语、韩语等 10 种语言
  • 同时保留原音色特征

跨语言/方言零损失迁移

  • 支持 10 种主流语言:中文、英文、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语、意大利语
  • 支持 多种中文方言:四川话、北京话等
  • 口音、神韵高度还原
  • 为多语言内容创作和地方化应用打开新想象空间

自然语言音色设计

Voice Design 功能允许用户通过自然语言指令自定义声音:

  • “用温柔鼓励的成熟女声讲述故事”
  • “高亢兴奋的年轻男性解说游戏”
  • 模型能自动调整语调、情感、节奏
  • 生成高度个性化的表达

这种 “所想即所听” 的控制能力,在有声书制作中尤为实用——一人即可分饰多角,情绪起伏、方言切换样样精通。

智能上下文理解

模型具备强大的文本语义理解能力:

  • 可根据输入文本自动调整语气、节奏和情感
  • 适应不同场景需求
  • 对输入文本噪声的鲁棒性显著提升
  • 实现拟人化的自然表达

性能表现

内容一致性(WER)

在内容一致性评测中表现优异:

  • 中文:WER 0.77
  • 英文:WER 1.24

可控语音生成

Qwen3-TTS-12Hz-1.7B-CustomVoice 在以下指标上表现强劲:

  • APS(Audio Prosody Similarity):韵律相似度高
  • DSD(Duration Similarity Distance):时长控制精准
  • RP(Rhythm Preservation):节奏保持优秀

音色设计

Qwen3-TTS-12Hz-1.7B-VoiceDesign 在音色设计任务中达到 SOTA(State-of-the-Art) 水平。

语音编码器

Qwen-TTS-Tokenizer-12Hz 在以下指标上表现出色:

  • PESQ:感知语音质量评估
  • STOI:短时客观可懂度
  • UTMOS:主观平均意见分
  • SIM:相似度

应用场景

智能语音助手

  • 为智能家居设备和车载系统提供自然语音交互
  • 支持多语言和方言
  • 提升用户体验

内容创作

  • 快速将文字转化为自然语音
  • 支持多种音色和情感表达
  • 适用于有声读物和视频配音
  • 一人分饰多角,制作高质量有声内容

教育领域

  • 为语言学习和在线教学提供多语言、多音色的语音输出
  • 增强学习效果
  • 支持方言教学

游戏和娱乐

  • 为游戏角色生成个性化音色
  • 支持情感和语调调整
  • 增强游戏沉浸感

客服与服务

  • 为智能客服提供自然、亲切的语音交互
  • 支持实时对话
  • 降低客服成本

直播互动

  • 超低延迟满足实时互动需求
  • 支持多语言直播
  • 提升观众体验

技术优势

端到端架构

  • 避免传统级联架构的信息瓶颈
  • 减少级联误差
  • 提升整体性能

轻量高效

  • 非 DiT 架构在保证高保真还原的同时,有效提升计算效率
  • 0.6B 模型适合边缘设备部署
  • 1.7B 模型追求极致性能

开源友好

  • 完整系列开源至 GitHub 和 Hugging Face
  • 支持全参数微调
  • 开发者可轻松构建品牌专属语音形象

开源与可用性

Qwen3-TTS 全系列模型已完全开源,支持:

  • 免费商业使用
  • 本地部署
  • 二次开发
  • API 调用

获取方式

技术意义

Qwen3-TTS 的开源为语音合成领域带来了多项突破:

  1. 超低延迟:97ms 的端到端延迟接近人类对话响应速度
  2. 高保真克隆:3 秒音频即可实现音色克隆
  3. 跨语言能力:单一音色支持 10 种语言无缝切换
  4. 自然语言控制:通过文字描述即可设计音色
  5. 开源生态:降低了实时、个性化、多语言语音 AI 的门槛

随着 Qwen3-TTS 的开源,实时、个性化、多语言语音 AI 的门槛大幅降低。无论是内容创作者、开发者还是企业级应用,都将迎来新一轮语音交互革命。

相关链接