Skip to content
より良い ComfyUI ナレッジベースの構築を支援する サポーターになる
ニュースNari LabsがDia 1.6Bテキスト対話音声合成モデルをリリース

Nari LabsがDia 1.6Bテキスト対話音声合成モデルをリリース

Dia Banner

Nari Labsは最近、Diaというオープンソースのテキスト音声変換(TTS)モデルをリリースしました。従来のTTSモデルとは異なり、Diaは対話生成に特化した16億パラメータのモデルで、テキストスクリプトから直接、高度にリアルな複数キャラクターの会話を生成することができます。

主な特徴

Diaモデルは以下の特徴を提供します:

  • 単一のテキストスクリプトから複数人の対話を生成
  • 音声プロンプトを通じて出力の感情やトーンをコントロール可能
  • 笑い声、咳、喉のクリアなど、非言語コミュニケーションを生成
  • 研究や応用のためのオープンソースの重みと推論コードを提供

現在、Diaモデルは英語の音声生成のみをサポートしています。

オンラインで試す

以下のHugging Faceスペースを通じて、Diaモデルを直接体験できます:

Nari Dia 1.6B Demo

使用方法

Diaで対話を生成するのは簡単です。以下のように対話テキストをフォーマットするだけです:

  • [S1][S2]タグを使用して異なる話者を区別
  • 非言語表現は括弧内に配置、例えば(laughs)(coughs)など
  • 音声サンプルを提供することで音声クローニングが可能

モデルは実行ごとに異なる声を生成しますが、音声プロンプトを追加するか、ランダムシードを固定することで声の一貫性を維持できます。

ハードウェア要件

DiaモデルはGPU推論のみをサポートしています(PyTorch 2.0+とCUDA 12.6が必要)。RTX 4090ではリアルタイムの2倍の生成速度を達成できます。チームは将来的にCPUサポートと量子化バージョンを追加する予定です。

関連リンク

Diaモデルは、「ナリ」(韓国語で「ユリ」の意味)を名前とするNari Labsによって開発されました。チームは常勤の研究エンジニア1名とパートタイムの研究エンジニア1名で構成されており、Google TPU Research Cloudプログラムから計算リソースの支援を受けています。