Nari Labs发布Dia 1.6B文本对话语音合成模型

最后更新：2025年4月22日ComfyUI Wikinews

Nari Labs推出开源文本转语音模型Dia 1.6B，能够直接从文本生成多角色对话，支持情感表达和非语言交流

Nari Labs近日发布了一款名为Dia的开源文本转语音(TTS)模型。与常规TTS模型不同，Dia是一个专门用于生成对话内容的1.6B参数模型，可以直接从文本脚本生成高度逼真的多角色对话。

主要特点

Dia模型具有以下特点：

能够从单一文本脚本直接生成多人对话
支持通过音频提示控制输出的情感和语调
可以生成非语言交流，如笑声、咳嗽、清嗓子等自然人声表达
开源权重和推理代码，便于研究和应用

目前，Dia模型仅支持英语语音生成。

在线体验

你可以通过下面的Hugging Face空间直接体验Dia模型的效果：

Invalid or blocked iframe URL.

使用方法

使用Dia生成对话非常简单，你只需要按照特定格式编写对话文本：

使用[S1]和[S2]标签来区分不同说话者
非语言表达放在括号中，如(laughs)、(coughs)等
可以通过提供音频样本实现声音克隆

模型每次运行会生成不同的声音，但你可以通过添加音频提示或固定随机种子来保持声音一致性。

硬件要求

Dia模型目前仅支持GPU推理（需要PyTorch 2.0+和CUDA 12.6），在RTX 4090上可以实现2倍实时速度的生成。团队表示将在未来添加CPU支持和量化版本。

相关链接

Dia模型由Nari Labs开发，"Nari"是韩语中"百合花"的意思。该团队由一名全职和一名兼职研究工程师组成，并得到了Google TPU Research Cloud计划的计算资源支持。

评论

使用 GitHub 登录后即可参与讨论。

评论加载中…

Nari Labs发布Dia 1.6B文本对话语音合成模型 | ComfyUI Wiki