OpenMOSS 发布 MOVA - 开源音视频同步生成模型
2026/01/29
阿里通义千问发布 Qwen3-TTS - 97ms 超低延迟语音合成模型
2026年1月22日,阿里巴巴通义千问团队正式开源 Qwen3-TTS 系列语音生成模型,这是一个功能强大的语音合成系统,全面支持音色克隆、音色创造、超高质量拟人化语音生成,以及基于自然语言描述的语音控制。该系列模型的发布被视为语音合成领域的重大突破。
核心创新
Dual-Track 双轨建模
Qwen3-TTS 的核心创新在于 Dual-Track(双轨)混合流式生成机制,结合离散多码本语言模型,直接端到端建模语音,避免了传统级联架构(如 LM+DiT)的信息瓶颈。
这种创新架构实现了:
- 极致低延迟:端到端合成延迟低至 97ms
- 即时响应:输入仅 1 个字符 即可输出首包音频
- 双模式支持:单模型同时兼容流式与非流式生成
这种极致响应速度接近人类对话的响应速度,非常适合直播互动、实时翻译、AI 智能客服等对时延敏感的场景。
Qwen3-TTS-Tokenizer-12Hz
模型依托创新的 Qwen3-TTS-Tokenizer-12Hz 多码本语音编码器,实现了对语音信号的高效压缩与强表征能力:
- 完整保留副语言信息(如语调、节奏、情感)
- 保留声学环境特征
- 通过轻量级的 非 DiT 架构 实现高速、高保真的语音还原
离散多码本 LM 架构
采用离散多码本语言模型(LM)架构,实现语音全信息端到端建模:
- 彻底规避传统 LM+DiT 方案的信息瓶颈
- 避免级联误差
- 显著提升模型的通用性、生成效率与效果上限
模型系列
Qwen3-TTS 提供两种参数规模,满足不同场景需求:
1.7B 模型系列
极致性能,强大控制
Qwen3-TTS-12Hz-1.7B-VoiceDesign
- 根据用户输入的自然语言描述进行音色设计
- 可自由定义声学属性、人设和背景信息
- 创造出独特的定制化音色
Qwen3-TTS-12Hz-1.7B-CustomVoice
- 通过用户指令对目标音色进行风格控制
- 支持 9 种优质音色,涵盖性别、年龄、语言和方言的多种组合
- 可根据指令灵活调控音色、情感、韵律等多维声学属性
Qwen3-TTS-12Hz-1.7B-Base
- 基础模型,支持从用户输入的 3 秒音频 快速克隆声音
- 可用于微调(Fine-tuning)其他模型
- 提供最大的灵活性和定制空间
0.6B 模型系列
均衡性能与效率
Qwen3-TTS-12Hz-0.6B-CustomVoice
- 支持 9 种优质音色
- 在保持良好效果的前提下,大幅降低资源消耗
- 适合部署在资源受限的边缘设备或移动端
Qwen3-TTS-12Hz-0.6B-Base
- 基础模型,支持 3 秒快速音色克隆
- 更低的计算资源需求
- 适合高并发部署场景
核心功能
3 秒极速音色克隆
语音克隆能力尤为惊艳:
- 仅需 3 秒参考音频,即可实现高保真零样本音色复刻
- 克隆后的音色支持 跨语种无缝迁移
- 中文音色可直接用于说英语、日语、韩语等 10 种语言
- 同时保留原音色特征
跨语言/方言零损失迁移
- 支持 10 种主流语言:中文、英文、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语、意大利语
- 支持 多种中文方言:四川话、北京话等
- 口音、神韵高度还原
- 为多语言内容创作和地方化应用打开新想象空间
自然语言音色设计
Voice Design 功能允许用户通过自然语言指令自定义声音:
- “用温柔鼓励的成熟女声讲述故事”
- “高亢兴奋的年轻男性解说游戏”
- 模型能自动调整语调、情感、节奏
- 生成高度个性化的表达
这种 “所想即所听” 的控制能力,在有声书制作中尤为实用——一人即可分饰多角,情绪起伏、方言切换样样精通。
智能上下文理解
模型具备强大的文本语义理解能力:
- 可根据输入文本自动调整语气、节奏和情感
- 适应不同场景需求
- 对输入文本噪声的鲁棒性显著提升
- 实现拟人化的自然表达
性能表现
内容一致性(WER)
在内容一致性评测中表现优异:
- 中文:WER 0.77
- 英文:WER 1.24
可控语音生成
Qwen3-TTS-12Hz-1.7B-CustomVoice 在以下指标上表现强劲:
- APS(Audio Prosody Similarity):韵律相似度高
- DSD(Duration Similarity Distance):时长控制精准
- RP(Rhythm Preservation):节奏保持优秀
音色设计
Qwen3-TTS-12Hz-1.7B-VoiceDesign 在音色设计任务中达到 SOTA(State-of-the-Art) 水平。
语音编码器
Qwen-TTS-Tokenizer-12Hz 在以下指标上表现出色:
- PESQ:感知语音质量评估
- STOI:短时客观可懂度
- UTMOS:主观平均意见分
- SIM:相似度
应用场景
智能语音助手
- 为智能家居设备和车载系统提供自然语音交互
- 支持多语言和方言
- 提升用户体验
内容创作
- 快速将文字转化为自然语音
- 支持多种音色和情感表达
- 适用于有声读物和视频配音
- 一人分饰多角,制作高质量有声内容
教育领域
- 为语言学习和在线教学提供多语言、多音色的语音输出
- 增强学习效果
- 支持方言教学
游戏和娱乐
- 为游戏角色生成个性化音色
- 支持情感和语调调整
- 增强游戏沉浸感
客服与服务
- 为智能客服提供自然、亲切的语音交互
- 支持实时对话
- 降低客服成本
直播互动
- 超低延迟满足实时互动需求
- 支持多语言直播
- 提升观众体验
技术优势
端到端架构
- 避免传统级联架构的信息瓶颈
- 减少级联误差
- 提升整体性能
轻量高效
- 非 DiT 架构在保证高保真还原的同时,有效提升计算效率
- 0.6B 模型适合边缘设备部署
- 1.7B 模型追求极致性能
开源友好
- 完整系列开源至 GitHub 和 Hugging Face
- 支持全参数微调
- 开发者可轻松构建品牌专属语音形象
开源与可用性
Qwen3-TTS 全系列模型已完全开源,支持:
- 免费商业使用
- 本地部署
- 二次开发
- API 调用
获取方式
- GitHub 仓库:https://github.com/QwenLM/Qwen3-TTS
- HuggingFace 模型库:https://huggingface.co/collections/Qwen/qwen3-tts
- ModelScope:https://www.modelscope.cn/collections/Qwen/Qwen3-TTS
- Qwen API:可通过官方 API 直接体验
技术意义
Qwen3-TTS 的开源为语音合成领域带来了多项突破:
- 超低延迟:97ms 的端到端延迟接近人类对话响应速度
- 高保真克隆:3 秒音频即可实现音色克隆
- 跨语言能力:单一音色支持 10 种语言无缝切换
- 自然语言控制:通过文字描述即可设计音色
- 开源生态:降低了实时、个性化、多语言语音 AI 的门槛
随着 Qwen3-TTS 的开源,实时、个性化、多语言语音 AI 的门槛大幅降低。无论是内容创作者、开发者还是企业级应用,都将迎来新一轮语音交互革命。
相关链接
- GitHub 仓库:https://github.com/QwenLM/Qwen3-TTS
- HuggingFace 模型:https://huggingface.co/collections/Qwen/qwen3-tts
- ModelScope:https://www.modelscope.cn/collections/Qwen/Qwen3-TTS
- Qwen 官方博客:https://qwenlm.github.io/blog/qwen3-tts/