OpenMOSS 发布 MOVA - 开源音视频同步生成模型

2026/01/29

阿里通义千问发布 Qwen3-TTS - 97ms 超低延迟语音合成模型

2026年1月22日，阿里巴巴通义千问团队正式开源 Qwen3-TTS 系列语音生成模型，这是一个功能强大的语音合成系统，全面支持音色克隆、音色创造、超高质量拟人化语音生成，以及基于自然语言描述的语音控制。该系列模型的发布被视为语音合成领域的重大突破。

核心创新

Dual-Track 双轨建模

Qwen3-TTS 的核心创新在于 Dual-Track（双轨）混合流式生成机制，结合离散多码本语言模型，直接端到端建模语音，避免了传统级联架构（如 LM+DiT）的信息瓶颈。

这种创新架构实现了：

极致低延迟：端到端合成延迟低至 97ms
即时响应：输入仅 1 个字符 即可输出首包音频
双模式支持：单模型同时兼容流式与非流式生成

这种极致响应速度接近人类对话的响应速度，非常适合直播互动、实时翻译、AI 智能客服等对时延敏感的场景。

Qwen3-TTS-Tokenizer-12Hz

模型依托创新的 Qwen3-TTS-Tokenizer-12Hz 多码本语音编码器，实现了对语音信号的高效压缩与强表征能力：

完整保留副语言信息（如语调、节奏、情感）
保留声学环境特征
通过轻量级的 非 DiT 架构 实现高速、高保真的语音还原

离散多码本 LM 架构

采用离散多码本语言模型（LM）架构，实现语音全信息端到端建模：

彻底规避传统 LM+DiT 方案的信息瓶颈
避免级联误差
显著提升模型的通用性、生成效率与效果上限

模型系列

Qwen3-TTS 提供两种参数规模，满足不同场景需求：

1.7B 模型系列

极致性能，强大控制

Qwen3-TTS-12Hz-1.7B-VoiceDesign

根据用户输入的自然语言描述进行音色设计
可自由定义声学属性、人设和背景信息
创造出独特的定制化音色

Qwen3-TTS-12Hz-1.7B-CustomVoice

通过用户指令对目标音色进行风格控制
支持 9 种优质音色，涵盖性别、年龄、语言和方言的多种组合
可根据指令灵活调控音色、情感、韵律等多维声学属性

Qwen3-TTS-12Hz-1.7B-Base

基础模型，支持从用户输入的 3 秒音频 快速克隆声音
可用于微调（Fine-tuning）其他模型
提供最大的灵活性和定制空间

0.6B 模型系列

均衡性能与效率

Qwen3-TTS-12Hz-0.6B-CustomVoice

支持 9 种优质音色
在保持良好效果的前提下，大幅降低资源消耗
适合部署在资源受限的边缘设备或移动端

Qwen3-TTS-12Hz-0.6B-Base

基础模型，支持 3 秒快速音色克隆
更低的计算资源需求
适合高并发部署场景

核心功能

3 秒极速音色克隆

语音克隆能力尤为惊艳：

仅需 3 秒参考音频，即可实现高保真零样本音色复刻
克隆后的音色支持 跨语种无缝迁移
中文音色可直接用于说英语、日语、韩语等 10 种语言
同时保留原音色特征

跨语言/方言零损失迁移

支持 10 种主流语言：中文、英文、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语、意大利语
支持 多种中文方言：四川话、北京话等
口音、神韵高度还原
为多语言内容创作和地方化应用打开新想象空间

自然语言音色设计

Voice Design 功能允许用户通过自然语言指令自定义声音：

“用温柔鼓励的成熟女声讲述故事”
“高亢兴奋的年轻男性解说游戏”
模型能自动调整语调、情感、节奏
生成高度个性化的表达

这种 “所想即所听” 的控制能力，在有声书制作中尤为实用——一人即可分饰多角，情绪起伏、方言切换样样精通。

智能上下文理解

模型具备强大的文本语义理解能力：

可根据输入文本自动调整语气、节奏和情感
适应不同场景需求
对输入文本噪声的鲁棒性显著提升
实现拟人化的自然表达

性能表现

内容一致性（WER）

在内容一致性评测中表现优异：

中文：WER 0.77
英文：WER 1.24

可控语音生成

Qwen3-TTS-12Hz-1.7B-CustomVoice 在以下指标上表现强劲：

APS（Audio Prosody Similarity）：韵律相似度高
DSD（Duration Similarity Distance）：时长控制精准
RP（Rhythm Preservation）：节奏保持优秀

音色设计

Qwen3-TTS-12Hz-1.7B-VoiceDesign 在音色设计任务中达到 SOTA（State-of-the-Art） 水平。

语音编码器

Qwen-TTS-Tokenizer-12Hz 在以下指标上表现出色：

PESQ：感知语音质量评估
STOI：短时客观可懂度
UTMOS：主观平均意见分
SIM：相似度

应用场景

智能语音助手

为智能家居设备和车载系统提供自然语音交互
支持多语言和方言
提升用户体验

内容创作

快速将文字转化为自然语音
支持多种音色和情感表达
适用于有声读物和视频配音
一人分饰多角，制作高质量有声内容

教育领域

为语言学习和在线教学提供多语言、多音色的语音输出
增强学习效果
支持方言教学

游戏和娱乐

为游戏角色生成个性化音色
支持情感和语调调整
增强游戏沉浸感

客服与服务

为智能客服提供自然、亲切的语音交互
支持实时对话
降低客服成本

直播互动

超低延迟满足实时互动需求
支持多语言直播
提升观众体验

技术优势

端到端架构

避免传统级联架构的信息瓶颈
减少级联误差
提升整体性能

轻量高效

非 DiT 架构在保证高保真还原的同时，有效提升计算效率
0.6B 模型适合边缘设备部署
1.7B 模型追求极致性能

开源友好

完整系列开源至 GitHub 和 Hugging Face
支持全参数微调
开发者可轻松构建品牌专属语音形象

开源与可用性

Qwen3-TTS 全系列模型已完全开源，支持：

免费商业使用
本地部署
二次开发
API 调用

获取方式

GitHub 仓库：https://github.com/QwenLM/Qwen3-TTS
HuggingFace 模型库：https://huggingface.co/collections/Qwen/qwen3-tts
ModelScope：https://www.modelscope.cn/collections/Qwen/Qwen3-TTS
Qwen API：可通过官方 API 直接体验

技术意义

Qwen3-TTS 的开源为语音合成领域带来了多项突破：

超低延迟：97ms 的端到端延迟接近人类对话响应速度
高保真克隆：3 秒音频即可实现音色克隆
跨语言能力：单一音色支持 10 种语言无缝切换
自然语言控制：通过文字描述即可设计音色
开源生态：降低了实时、个性化、多语言语音 AI 的门槛

随着 Qwen3-TTS 的开源，实时、个性化、多语言语音 AI 的门槛大幅降低。无论是内容创作者、开发者还是企业级应用，都将迎来新一轮语音交互革命。