Higgs TTS 3: Boson AI 的 40 亿参数多语言语音模型,支持 100 多种语言

Higgs TTS 3 是 Boson AI 推出的 40 亿参数多语言文本转语音模型,支持超过 100 种语言,具备富有表现力的语音生成、零样本语音克隆,以及对情感、韵律和音效的精细控制。

概述

由 Boson AI 于 2026 年 6 月 4 日发布的 Higgs TTS 3（模型 ID：bosonai/higgs-tts-3-4b）是一个强大的 40 亿参数 文本转语音模型，专为 语音代理和对话式 AI 应用而设计。与仅能"朗读"文本的传统 TTS 系统不同，Higgs TTS 3 旨在"说话"，生成富有表现力、自然且带有情感细微差别的对话语音。

该模型基于 Higgs 多模态架构(基于 Qwen3),采用自回归解码器,处理交错排列的文本和音频 token。音频由 Higgs Tokenizer 以 25 fps 速率编码到 8 个码本中(采用交错延迟模式),然后再解码回高质量波形。

核心特性

| 特性 | 描述 | |

-| | 参数 | 40 亿 | | 语言 | 100 多种(广泛的多语言覆盖) | | 架构 | 基于 Qwen3 的 Higgs 多模态自回归解码器 | | 语音克隆 | 从参考音频进行零样本语音克隆 | | 控制 | 21 种情感、10 种韵律控制、内联音效 | | 许可证 | 研究和非商业用途 | | 库 | Transformers(Hugging Face) |

多语言支持

Higgs TTS 3 支持超过 100 种语言,涵盖主要语系:

欧洲语言: 英语、西班牙语、法语、德语、意大利语、葡萄牙语、俄语、波兰语、荷兰语、瑞典语、挪威语、丹麦语、芬兰语、希腊语、捷克语、罗马尼亚语、匈牙利语、乌克兰语等
亚洲语言: 中文(普通话/粤语)、日语、韩语、印地语、孟加拉语、泰米尔语、泰卢固语、乌尔都语、越南语、泰语、印尼语、马来语、缅甸语、高棉语、老挝语等
中东/非洲语言: 阿拉伯语、希伯来语、土耳其语、波斯语、斯瓦希里语、阿姆哈拉语、豪萨语、约鲁巴语、伊博语、祖鲁语、科萨语等
其他语言: 他加禄语、尼泊尔语、僧伽罗语、格鲁吉亚语、亚美尼亚语、阿塞拜疆语、哈萨克语、乌兹别克语等

表现力控制

Higgs TTS 3 通过嵌入在输入文本中的内联控制标签,对语音输出提供精细控制:

21 种情感(句子级)

affection(爱慕)、amusement(愉悦)、anger(愤怒)、arousal(兴奋)、awe(敬畏)、bitterness(苦涩)、confusion(困惑)、contemplation(沉思)、contentment(满足)、determination(坚定)、disgust(厌恶)、elation(得意)、enthusiasm(热情)、fear(恐惧)、helplessness(无助)、longing(渴望)、pride(骄傲)、relief(宽慰)、sadness(悲伤)、shame(羞愧)、surprise(惊讶)

韵律控制(10 种)

速度控制:speed_very_slow(非常慢)、speed_slow(慢)、speed_fast(快)、speed_very_fast(非常快) 音高:pitch_low(低音)、pitch_high(高音) 表现力:expressive_more(更富表现力)、expressive_less(减少表现力)、pause(停顿)、long_pause(长时间停顿)

内联音效

音效可内联触发:cough(咳嗽)、laughter(笑声)、sigh(叹气)、applause(掌声)、bell(铃声)、knock(敲门声)等。

使用示例

<|emotion:elation|>欢迎登机,我们非常高兴您能来到这里!
<|sfx:cough|>嗯哼,让我开始今天的演示。
<|style:whispering|>靠近点,我有个小秘密要告诉你。

零样本语音克隆

该模型支持从一段较短的参考音频样本进行零样本语音克隆,无需任何微调即可用目标语音合成语音。这使得它适用于:

具有一致角色语音的语音代理应用
用单一语音进行多语言内容创作
个性化语音合成

可用性

Hugging Face: bosonai/higgs-tts-3-4b
博客文章: Boson AI 博客: Higgs Audio v3

Higgs TTS 3 根据自定义许可证发布,仅供研究和非商业用途。禁止用途包括未经同意的语音克隆、冒充、欺诈、选举欺骗和生物特征监控。

总结

Higgs TTS 3 代表了开放权重的多语言语音合成领域的重大进步,它将 40 亿参数的骨干网络与广泛的语言覆盖、富有表现力的情感控制以及零样本语音克隆能力相结合。对于构建语音代理或多语言语音应用的开发者而言,它提供了一个令人信服的研究级解决方案,并具备最先进的表现力。