Nari LabsがDia 1.6Bテキスト対話音声合成モデルをリリース

最終更新：2025年4月22日ComfyUI Wikinews

Nari Labsがオープンソースのテキスト音声変換モデルDia 1.6Bを発表。テキストから直接複数キャラクターの対話を生成し、感情表現や非言語コミュニケーションをサポート

Nari Labsは最近、Diaというオープンソースのテキスト音声変換（TTS）モデルをリリースしました。従来のTTSモデルとは異なり、Diaは対話生成に特化した16億パラメータのモデルで、テキストスクリプトから直接、高度にリアルな複数キャラクターの会話を生成することができます。

主な特徴

Diaモデルは以下の特徴を提供します：

単一のテキストスクリプトから複数人の対話を生成
音声プロンプトを通じて出力の感情やトーンをコントロール可能
笑い声、咳、喉のクリアなど、非言語コミュニケーションを生成
研究や応用のためのオープンソースの重みと推論コードを提供

現在、Diaモデルは英語の音声生成のみをサポートしています。

オンラインで試す

以下のHugging Faceスペースを通じて、Diaモデルを直接体験できます：

Invalid or blocked iframe URL.

使用方法

Diaで対話を生成するのは簡単です。以下のように対話テキストをフォーマットするだけです：

[S1]と[S2]タグを使用して異なる話者を区別
非言語表現は括弧内に配置、例えば(laughs)、(coughs)など
音声サンプルを提供することで音声クローニングが可能

モデルは実行ごとに異なる声を生成しますが、音声プロンプトを追加するか、ランダムシードを固定することで声の一貫性を維持できます。

ハードウェア要件

DiaモデルはGPU推論のみをサポートしています（PyTorch 2.0+とCUDA 12.6が必要）。RTX 4090ではリアルタイムの2倍の生成速度を達成できます。チームは将来的にCPUサポートと量子化バージョンを追加する予定です。

関連リンク

Diaモデルは、「ナリ」（韓国語で「ユリ」の意味）を名前とするNari Labsによって開発されました。チームは常勤の研究エンジニア1名とパートタイムの研究エンジニア1名で構成されており、Google TPU Research Cloudプログラムから計算リソースの支援を受けています。

コメント

GitHubでサインインしてディスカッションに参加しましょう。

コメントを読み込み中…

Nari LabsがDia 1.6Bテキスト対話音声合成モデルをリリース | ComfyUI Wiki