Nari Labs lance Dia 1.6B, un modèle de synthèse de dialogues à partir de texte

Nari Labs a récemment lancé un modèle de synthèse vocale (TTS) open-source appelé Dia. Contrairement aux modèles TTS conventionnels, Dia est un modèle de 1,6 milliard de paramètres spécifiquement conçu pour la génération de dialogues, capable de produire des conversations multi-personnages hautement réalistes directement à partir de scripts textuels.

Caractéristiques principales

Le modèle Dia offre les fonctionnalités suivantes :

Génère des dialogues multi-personnages à partir d'un seul script textuel
Permet le contrôle des émotions et du ton grâce au conditionnement audio
Produit des communications non-verbales comme des rires, de la toux, des éclaircissements de gorge et autres expressions vocales naturelles
Fournit des poids open-source et du code d'inférence pour la recherche et les applications

Actuellement, le modèle Dia ne prend en charge que la génération de parole en anglais.

Essayez-le en ligne

Vous pouvez découvrir le modèle Dia directement via l'espace Hugging Face ci-dessous :

Invalid or blocked iframe URL.

Comment l'utiliser

L'utilisation de Dia pour générer des dialogues est simple. Il vous suffit de formater votre texte de dialogue comme suit :

Utilisez les balises [S1] et [S2] pour distinguer les différents locuteurs
Placez les expressions non-verbales entre parenthèses, comme (laughs), (coughs), etc.
Le clonage vocal est possible en fournissant des échantillons audio

Le modèle génère différentes voix à chaque exécution, mais vous pouvez maintenir la cohérence vocale en ajoutant des invites audio ou en fixant la graine aléatoire.

Configuration matérielle requise

Le modèle Dia ne prend actuellement en charge que l'inférence sur GPU (nécessite PyTorch 2.0+ et CUDA 12.6) et peut atteindre une vitesse de génération 2 fois supérieure au temps réel sur une RTX 4090. L'équipe prévoit d'ajouter la prise en charge du CPU et des versions quantifiées à l'avenir.

Liens connexes

Le modèle Dia a été développé par Nari Labs, où "Nari" est le mot coréen pour "lys". L'équipe est composée d'un ingénieur de recherche à temps plein et d'un autre à temps partiel, et a bénéficié du soutien en ressources de calcul du programme Google TPU Research Cloud.

Caractéristiques principales

Essayez-le en ligne

Comment l'utiliser

Configuration matérielle requise

Liens connexes

Commentaires