Step1X-Edit: オープンソースAI画像編集フレームワーク
2025/04/28
Nari LabsがDia 1.6Bテキスト対話音声合成モデルをリリース
Nari Labsは最近、Diaというオープンソースのテキスト音声変換(TTS)モデルをリリースしました。従来のTTSモデルとは異なり、Diaは対話生成に特化した16億パラメータのモデルで、テキストスクリプトから直接、高度にリアルな複数キャラクターの会話を生成することができます。
主な特徴
Diaモデルは以下の特徴を提供します:
- 単一のテキストスクリプトから複数人の対話を生成
- 音声プロンプトを通じて出力の感情やトーンをコントロール可能
- 笑い声、咳、喉のクリアなど、非言語コミュニケーションを生成
- 研究や応用のためのオープンソースの重みと推論コードを提供
現在、Diaモデルは英語の音声生成のみをサポートしています。
オンラインで試す
以下のHugging Faceスペースを通じて、Diaモデルを直接体験できます:
Nari Dia 1.6B Demo
使用方法
Diaで対話を生成するのは簡単です。以下のように対話テキストをフォーマットするだけです:
[S1]
と[S2]
タグを使用して異なる話者を区別- 非言語表現は括弧内に配置、例えば
(laughs)
、(coughs)
など - 音声サンプルを提供することで音声クローニングが可能
モデルは実行ごとに異なる声を生成しますが、音声プロンプトを追加するか、ランダムシードを固定することで声の一貫性を維持できます。
ハードウェア要件
DiaモデルはGPU推論のみをサポートしています(PyTorch 2.0+とCUDA 12.6が必要)。RTX 4090ではリアルタイムの2倍の生成速度を達成できます。チームは将来的にCPUサポートと量子化バージョンを追加する予定です。
関連リンク
Diaモデルは、「ナリ」(韓国語で「ユリ」の意味)を名前とするNari Labsによって開発されました。チームは常勤の研究エンジニア1名とパートタイムの研究エンジニア1名で構成されており、Google TPU Research Cloudプログラムから計算リソースの支援を受けています。