Nari Labs lance Dia 1.6B, un modèle de synthèse de dialogues à partir de texte
Nari Labs a récemment lancé un modèle de synthèse vocale (TTS) open-source appelé Dia. Contrairement aux modèles TTS conventionnels, Dia est un modèle de 1,6 milliard de paramètres spécifiquement conçu pour la génération de dialogues, capable de produire des conversations multi-personnages hautement réalistes directement à partir de scripts textuels.
Caractéristiques principales
Le modèle Dia offre les fonctionnalités suivantes :
- Génère des dialogues multi-personnages à partir d’un seul script textuel
- Permet le contrôle des émotions et du ton grâce au conditionnement audio
- Produit des communications non-verbales comme des rires, de la toux, des éclaircissements de gorge et autres expressions vocales naturelles
- Fournit des poids open-source et du code d’inférence pour la recherche et les applications
Actuellement, le modèle Dia ne prend en charge que la génération de parole en anglais.
Essayez-le en ligne
Vous pouvez découvrir le modèle Dia directement via l’espace Hugging Face ci-dessous :
Comment l’utiliser
L’utilisation de Dia pour générer des dialogues est simple. Il vous suffit de formater votre texte de dialogue comme suit :
- Utilisez les balises
[S1]
et[S2]
pour distinguer les différents locuteurs - Placez les expressions non-verbales entre parenthèses, comme
(laughs)
,(coughs)
, etc. - Le clonage vocal est possible en fournissant des échantillons audio
Le modèle génère différentes voix à chaque exécution, mais vous pouvez maintenir la cohérence vocale en ajoutant des invites audio ou en fixant la graine aléatoire.
Configuration matérielle requise
Le modèle Dia ne prend actuellement en charge que l’inférence sur GPU (nécessite PyTorch 2.0+ et CUDA 12.6) et peut atteindre une vitesse de génération 2 fois supérieure au temps réel sur une RTX 4090. L’équipe prévoit d’ajouter la prise en charge du CPU et des versions quantifiées à l’avenir.
Liens connexes
Le modèle Dia a été développé par Nari Labs, où “Nari” est le mot coréen pour “lys”. L’équipe est composée d’un ingénieur de recherche à temps plein et d’un autre à temps partiel, et a bénéficié du soutien en ressources de calcul du programme Google TPU Research Cloud.