Skip to content
帮助构建更好的 ComfyUI 知识库 成为赞助者
新闻Nari Labs发布Dia 1.6B文本对话语音合成模型

Nari Labs发布Dia 1.6B文本对话语音合成模型

Dia Banner

Nari Labs近日发布了一款名为Dia的开源文本转语音(TTS)模型。与常规TTS模型不同,Dia是一个专门用于生成对话内容的1.6B参数模型,可以直接从文本脚本生成高度逼真的多角色对话。

主要特点

Dia模型具有以下特点:

  • 能够从单一文本脚本直接生成多人对话
  • 支持通过音频提示控制输出的情感和语调
  • 可以生成非语言交流,如笑声、咳嗽、清嗓子等自然人声表达
  • 开源权重和推理代码,便于研究和应用

目前,Dia模型仅支持英语语音生成。

在线体验

你可以通过下面的Hugging Face空间直接体验Dia模型的效果:

Nari Dia 1.6B Demo

使用方法

使用Dia生成对话非常简单,你只需要按照特定格式编写对话文本:

  • 使用[S1][S2]标签来区分不同说话者
  • 非语言表达放在括号中,如(laughs)(coughs)
  • 可以通过提供音频样本实现声音克隆

模型每次运行会生成不同的声音,但你可以通过添加音频提示或固定随机种子来保持声音一致性。

硬件要求

Dia模型目前仅支持GPU推理(需要PyTorch 2.0+和CUDA 12.6),在RTX 4090上可以实现2倍实时速度的生成。团队表示将在未来添加CPU支持和量化版本。

相关链接

Dia模型由Nari Labs开发,“Nari”是韩语中”百合花”的意思。该团队由一名全职和一名兼职研究工程师组成,并得到了Google TPU Research Cloud计划的计算资源支持。