Step1X-Edit: 开源AI图像编辑框架
2025/04/28
Nari Labs发布Dia 1.6B文本对话语音合成模型
Nari Labs近日发布了一款名为Dia的开源文本转语音(TTS)模型。与常规TTS模型不同,Dia是一个专门用于生成对话内容的1.6B参数模型,可以直接从文本脚本生成高度逼真的多角色对话。
主要特点
Dia模型具有以下特点:
- 能够从单一文本脚本直接生成多人对话
- 支持通过音频提示控制输出的情感和语调
- 可以生成非语言交流,如笑声、咳嗽、清嗓子等自然人声表达
- 开源权重和推理代码,便于研究和应用
目前,Dia模型仅支持英语语音生成。
在线体验
你可以通过下面的Hugging Face空间直接体验Dia模型的效果:
Nari Dia 1.6B Demo
使用方法
使用Dia生成对话非常简单,你只需要按照特定格式编写对话文本:
- 使用
[S1]
和[S2]
标签来区分不同说话者 - 非语言表达放在括号中,如
(laughs)
、(coughs)
等 - 可以通过提供音频样本实现声音克隆
模型每次运行会生成不同的声音,但你可以通过添加音频提示或固定随机种子来保持声音一致性。
硬件要求
Dia模型目前仅支持GPU推理(需要PyTorch 2.0+和CUDA 12.6),在RTX 4090上可以实现2倍实时速度的生成。团队表示将在未来添加CPU支持和量化版本。
相关链接
Dia模型由Nari Labs开发,“Nari”是韩语中”百合花”的意思。该团队由一名全职和一名兼职研究工程师组成,并得到了Google TPU Research Cloud计划的计算资源支持。