NVIDIA lance PersonaPlex-7B-v1 - Modèle de dialogue vocal full-duplex
Le 20 janvier 2026, NVIDIA Research a officiellement lancé PersonaPlex-7B-v1, un modèle de dialogue vocal full-duplex de 7 milliards de paramètres basé sur l’architecture Moshi. Le modèle abandonne le pipeline en cascade traditionnel ASR→LLM→TTS, adoptant une architecture Transformer unifiée qui traite de manière synchrone la compréhension et la génération vocales au sein d’un seul réseau, prenant en charge les interruptions naturelles, la parole superposée, la prise de tours rapide et les rétrocanaux conscients du contexte.
Innovation principale
Interaction en temps réel full-duplex
La plus grande percée de PersonaPlex-7B-v1 réside dans la réalisation d’une véritable capacité de dialogue Full Duplex (duplex intégral) :
- Écouter en parlant : Le modèle peut écouter simultanément l’entrée de l’utilisateur et générer des réponses
- Interruptions naturelles : Prend en charge que les utilisateurs interrompent la parole de l’IA à tout moment
- Rétroaction instantanée : Peut produire des rétrocanaux comme “uh-huh” et “exact”
- Rythme authentique : Simule les pauses naturelles et les changements d’intonation dans la conversation humaine
L’IA vocale traditionnelle utilise un processus rigide en trois étapes (reconnaissance vocale → traitement de modèle de langage large → synthèse vocale). Ce mode de relais “écouter-penser-parler”, bien que fonctionnel, manque toujours de sensation d’interaction naturelle, transformant le dialogue en combat mécanique au tour par tour.
PersonaPlex-7B-v1 traite les tokens audio continus via une architecture Transformer à double flux, réalisant une génération parallèle de texte et de parole sans transferts de tâches ni pauses forcées.
Réponse à latence ultra-faible
Dans les tests de performance, PersonaPlex-7B-v1 excelle :
- Taux de prise de tours : 90.8%
- Latence de réponse aux interruptions : Aussi faible que 240 millisecondes
- Temps jusqu’au premier token (TTFT) : Environ 170 millisecondes
Ces métriques dépassent significativement les systèmes open source et commerciaux existants, fournissant aux utilisateurs une expérience fluide proche de la conversation humaine réelle.
Mécanisme de prompting hybride
PersonaPlex réalise un contrôle précis des rôles grâce à un innovant mécanisme de prompting hybride :
Prompt vocal (Voice Prompt)
- Définit le timbre et la prosodie
- Contrôle la vitesse de parole et l’expression émotionnelle
- Réalise un clonage vocal haute fidélité avec seulement quelques secondes d’échantillons audio
Prompt textuel (Text Prompt)
- Établit l’identité du rôle et les scénarios commerciaux
- Définit les antécédents de connaissances et le style de comportement
- Peut inclure des informations structurées comme les noms et les organisations
Prompt système (System Prompt)
- Fournit des informations contextuelles
- Établit les règles de dialogue
- Définit les objectifs de tâches
Ce système de prompting multidimensionnel permet à PersonaPlex de s’adapter de manière flexible à divers scénarios d’application, des tuteurs professionnels aux représentants du service client, des personnages virtuels créatifs au support technique.
Architecture technique
Architecture unifiée basée sur Moshi
PersonaPlex-7B-v1 est construit sur l’architecture Moshi, utilisant une modélisation de bout en bout :
- Encodeur vocal Mimi (ConvNet + Transformer) : Mappe l’audio brut en tokens de texte discrets
- Temporal Transformer : Modélise le rythme conversationnel dans la dimension temporelle (quand interrompre, quand attendre)
- Depth Transformer : Analyse profonde de l’intention sémantique et des stratégies de comportement
- Décodeur vocal Mimi (Transformer + ConvNet) : Restaure les séquences de tokens en parole haute fidélité
Le taux d’échantillonnage audio atteint 24kHz, assurant une sortie vocale de haute qualité.
Modèle de langage sous-jacent : Helium
PersonaPlex utilise Helium comme modèle de langage sous-jacent, fournissant :
- Capacité de compréhension sémantique
- Capacité de généralisation à des scénarios hors distribution
- Modélisation de contexte puissante
Données d’entraînement
Les données d’entraînement de PersonaPlex fusionnent des conversations réelles avec des corpus synthétiques de haute qualité :
Données de conversation réelle
- Source : Corpus Fisher English
- Échelle : 7,303 conversations, totalisant 1,217 heures
- Traitement : Rétro-annoté avec des prompts utilisant GPT-OSS-120B
Données de conversation synthétique
Scénarios d’assistant d’enseignement
- Échelle : 39,322 conversations, 410 heures
- Génération : Qwen3-32B et GPT-OSS-120B génèrent du texte, Chatterbox TTS synthétise la parole
Scénarios de service client
- Échelle : 105,410 conversations, 1,840 heures
- Domaines : Couvre plusieurs domaines verticaux incluant l’éducation, la santé et la finance
Cette stratégie d’entraînement hybride assure que le modèle a à la fois authenticité et capacité de généralisation.
Performance
Dans les tests de benchmark autorisés, PersonaPlex-7B-v1 a d’excellentes performances :
Dynamique conversationnelle (FullDuplexBench)
- PersonaPlex : 90.8
- Moshi : 95.06
- Freeze Omni : 60.68
- Qwen 2.5 Omni : 86.53
Latence de réponse
- PersonaPlex : 0.170 secondes
- Moshi : 0.240 secondes
- Freeze Omni : 0.205 secondes
- Qwen 2.5 Omni : 0.953 secondes
Adhésion aux tâches
- PersonaPlex : 4.29
- Moshi : 4.40
- Freeze Omni : 4.34
- Qwen 2.5 Omni : 3.62
Scénarios d’application
PersonaPlex-7B-v1 est adapté à divers scénarios :
Assistance éducative intelligente
Agit comme un enseignant personnalisé, expliquant les points de connaissance avec une logique claire et une expression vivante, stimulant l’intérêt pour l’apprentissage et s’adaptant aux étudiants de différents niveaux cognitifs.
Service client intelligent
Compétent dans les postes de première ligne dans la banque, les télécommunications, les assurances et d’autres industries, fournissant des conseils professionnels basés sur les besoins des clients tout en maintenant une attitude de service patiente et professionnelle.
Jeu de rôle et jeux
Joue divers rôles dans des jeux ou des scénarios de simulation, fournissant des expériences interactives immersives.
Compagnons virtuels
Fournit une compagnie conversationnelle quotidienne, capable de comprendre les émotions et de fournir une rétroaction émotionnelle appropriée.
Scénarios professionnels
Comme la gestion des urgences spatiales et d’autres scénarios spéciaux, capable de fournir des conseils professionnels avec des tons émotionnels appropriés.
Open source et disponibilité
PersonaPlex-7B-v1 est entièrement open source avec des licences conviviales :
- Code : MIT License
- Poids du modèle : NVIDIA Open Model License
- Modèle de base Moshi : CC-BY-4.0
Les développeurs peuvent :
- Télécharger et utiliser gratuitement
- Déployer et exécuter localement
- Effectuer un développement secondaire et une personnalisation
- Intégrer dans des applications commerciales
Accès
- HuggingFace : https://huggingface.co/nvidia/personaplex-7b-v1
- GitHub : https://github.com/nvidia/personaplex
- Page de recherche : https://research.nvidia.com/labs/adlr/personaplex/
Signification technique
Le lancement de PersonaPlex-7B-v1 marque une percée importante dans l’interaction IA vocale :
- Innovation architecturale : Du pipeline en cascade au traitement unifié de bout en bout
- Interaction naturelle : Maîtrise véritable du “rythme respiratoire de la conversation humaine”
- Déploiement à faible barrière : Le modèle open source réduit les barrières techniques et de coût pour construire des agents conversationnels naturels
- Applications larges : Adapté à la traduction en temps réel, aux PNJ de jeux immersifs, aux assistants avancés de véhicules et autres domaines
En publiant PersonaPlex en open source, NVIDIA fournit une solution déployable localement et commercialement viable pour le domaine de l’IA vocale, propulsant le développement des interfaces d’interaction humain-ordinateur de prochaine génération.
Liens connexes
- Modèle HuggingFace : https://huggingface.co/nvidia/personaplex-7b-v1
- Dépôt GitHub : https://github.com/nvidia/personaplex
- Page d’accueil de recherche : https://research.nvidia.com/labs/adlr/personaplex/