Alibaba Qwen lance Qwen3-TTS - Modèle de synthèse vocale à latence ultra-faible de 97ms
Le 22 janvier 2026, l’équipe Alibaba Qwen a officiellement publié en open source la série de modèles de génération vocale Qwen3-TTS, un puissant système de synthèse vocale qui prend en charge de manière complète le clonage vocal, la création vocale, la génération vocale humanisée de très haute qualité et le contrôle vocal basé sur le langage naturel. Le lancement de cette série de modèles est considéré comme une percée majeure dans le domaine de la synthèse vocale.
Innovation principale
Modélisation Dual-Track
L’innovation principale de Qwen3-TTS réside dans le mécanisme de génération en streaming hybride Dual-Track (double piste), combiné avec des modèles de langage à livres de codes multiples discrets, modélisant directement la parole de bout en bout, évitant les goulots d’étranglement d’information des architectures en cascade traditionnelles (comme LM+DiT).
Cette architecture innovante réalise :
- Latence ultra-faible : Latence de synthèse de bout en bout aussi faible que 97ms
- Réponse instantanée : Sortie du premier paquet audio avec seulement 1 caractère d’entrée
- Support en mode dual : Un seul modèle prend en charge la génération en streaming et non-streaming
Cette vitesse de réponse ultime s’approche de la vitesse de réponse de conversation humaine, étant idéale pour les scénarios sensibles à la latence comme l’interaction en direct, la traduction en temps réel et le service client IA.
Qwen3-TTS-Tokenizer-12Hz
Le modèle s’appuie sur l’innovant encodeur vocal à livres de codes multiples Qwen3-TTS-Tokenizer-12Hz, réalisant une compression efficace et une forte capacité de représentation des signaux vocaux :
- Préserve complètement les informations paralinguistiques (comme l’intonation, le rythme, l’émotion)
- Préserve les caractéristiques de l’environnement acoustique
- Réalise une restauration vocale haute vitesse et haute fidélité grâce à une architecture non-DiT légère
Architecture LM à livres de codes multiples discrets
Adopte une architecture de modèle de langage (LM) à livres de codes multiples discrets, réalisant une modélisation de bout en bout de l’information complète de la parole :
- Évite complètement les goulots d’étranglement d’information des solutions LM+DiT traditionnelles
- Évite les erreurs en cascade
- Améliore significativement la polyvalence du modèle, l’efficacité de génération et le plafond de performance
Série de modèles
Qwen3-TTS fournit deux échelles de paramètres pour répondre aux différents besoins de scénarios :
Série de modèles 1.7B
Performance ultime, contrôle puissant
Qwen3-TTS-12Hz-1.7B-VoiceDesign
- Effectue la conception vocale basée sur des descriptions en langage naturel fournies par l’utilisateur
- Peut définir librement les attributs acoustiques, la personnalité et les informations de fond
- Crée des voix personnalisées uniques
Qwen3-TTS-12Hz-1.7B-CustomVoice
- Fournit un contrôle de style sur les voix cibles via des instructions utilisateur
- Prend en charge 9 voix premium couvrant diverses combinaisons de genre, âge, langue et dialecte
- Peut contrôler de manière flexible la voix, l’émotion, la prosodie et d’autres attributs acoustiques multidimensionnels via des instructions
Qwen3-TTS-12Hz-1.7B-Base
- Modèle de base, prend en charge le clonage vocal rapide à partir d’audio de 3 secondes fourni par l’utilisateur
- Peut être utilisé pour l’ajustement fin d’autres modèles
- Fournit une flexibilité et un espace de personnalisation maximaux
Série de modèles 0.6B
Équilibre entre performance et efficacité
Qwen3-TTS-12Hz-0.6B-CustomVoice
- Prend en charge 9 voix premium
- Réduit significativement la consommation de ressources tout en maintenant de bons résultats
- Adapté au déploiement sur des appareils edge à ressources limitées ou des appareils mobiles
Qwen3-TTS-12Hz-0.6B-Base
- Modèle de base, prend en charge le clonage vocal rapide de 3 secondes
- Exigences de ressources de calcul plus faibles
- Adapté aux scénarios de déploiement à haute concurrence
Caractéristiques principales
Clonage vocal rapide de 3 secondes
La capacité de clonage vocal est particulièrement impressionnante :
- Seulement 3 secondes d’audio de référence pour réaliser une réplication vocale haute fidélité zero-shot
- Les voix clonées prennent en charge la migration cross-linguistique sans problème
- Les voix chinoises peuvent parler directement anglais, japonais, coréen et 10 autres langues
- Préserve simultanément les caractéristiques vocales originales
Migration cross-linguistique/dialecte sans perte
- Prend en charge 10 langues principales : chinois, anglais, japonais, coréen, allemand, français, russe, portugais, espagnol, italien
- Prend en charge plusieurs dialectes chinois : dialecte du Sichuan, dialecte de Pékin, etc.
- Restauration haute précision de l’accent et du charme
- Ouvre de nouvelles possibilités pour la création de contenu multilingue et les applications de localisation
Conception vocale en langage naturel
La fonction Voice Design permet aux utilisateurs de personnaliser les voix via des instructions en langage naturel :
- “Utilisez une voix féminine mature douce et encourageante pour raconter des histoires”
- “Utilisez une voix masculine jeune excitée et aiguë pour commenter des jeux”
- Le modèle ajuste automatiquement l’intonation, l’émotion et le rythme
- Génère des expressions hautement personnalisées
Cette capacité de contrôle “ce que vous imaginez est ce que vous entendez” est particulièrement utile dans la production de livres audio : une personne peut jouer plusieurs rôles, maîtrisant les hauts et bas émotionnels et les changements de dialecte.
Compréhension intelligente du contexte
Le modèle a de fortes capacités de compréhension sémantique du texte :
- Peut ajuster automatiquement le ton, le rythme et l’émotion en fonction du texte d’entrée
- S’adapte aux différents besoins de scénarios
- Robustesse significativement améliorée au bruit du texte d’entrée
- Réalise une expression naturelle humanisée
Performance
Cohérence du contenu (WER)
Excellente performance dans l’évaluation de cohérence du contenu :
- Chinois : WER 0.77
- Anglais : WER 1.24
Génération vocale contrôlable
Qwen3-TTS-12Hz-1.7B-CustomVoice montre une performance solide dans les métriques suivantes :
- APS (Audio Prosody Similarity) : Haute similarité de prosodie
- DSD (Duration Similarity Distance) : Contrôle précis de la durée
- RP (Rhythm Preservation) : Excellente préservation du rythme
Conception vocale
Qwen3-TTS-12Hz-1.7B-VoiceDesign atteint le niveau SOTA (State-of-the-Art) dans les tâches de conception vocale.
Encodeur vocal
Qwen-TTS-Tokenizer-12Hz montre d’excellentes performances dans les métriques suivantes :
- PESQ : Évaluation perceptuelle de la qualité vocale
- STOI : Intelligibilité objective à court terme
- UTMOS : Score d’opinion moyen
- SIM : Similarité
Scénarios d’application
Assistants vocaux intelligents
- Fournit une interaction vocale naturelle pour les appareils de maison intelligente et les systèmes de véhicules
- Prend en charge plusieurs langues et dialectes
- Améliore l’expérience utilisateur
Création de contenu
- Convertit rapidement le texte en voix naturelle
- Prend en charge plusieurs voix et expressions émotionnelles
- Adapté aux livres audio et au doublage vidéo
- Une personne joue plusieurs rôles, produisant du contenu audio de haute qualité
Éducation
- Fournit une sortie vocale multilingue et multi-voix pour l’apprentissage des langues et l’enseignement en ligne
- Améliore l’efficacité de l’apprentissage
- Prend en charge l’enseignement des dialectes
Jeux et divertissement
- Génère des voix personnalisées pour les personnages de jeux
- Prend en charge l’ajustement de l’émotion et du ton
- Améliore l’immersion dans les jeux
Service client
- Fournit une interaction vocale naturelle et amicale pour le service client intelligent
- Prend en charge le dialogue en temps réel
- Réduit les coûts du service client
Interaction de diffusion en direct
- Latence ultra-faible répond aux besoins d’interaction en temps réel
- Prend en charge la diffusion en direct multilingue
- Améliore l’expérience de l’audience
Avantages techniques
Architecture de bout en bout
- Évite les goulots d’étranglement d’information des architectures en cascade traditionnelles
- Réduit les erreurs en cascade
- Améliore la performance globale
Léger et efficace
- L’architecture non-DiT améliore efficacement l’efficacité de calcul tout en garantissant une restauration haute fidélité
- Le modèle 0.6B est adapté au déploiement sur appareils edge
- Le modèle 1.7B recherche la performance ultime
Convivial pour l’open source
- Série complète open source sur GitHub et Hugging Face
- Prend en charge l’ajustement fin des paramètres complets
- Les développeurs peuvent facilement construire des images vocales spécifiques à la marque
Open source et disponibilité
La série complète de modèles Qwen3-TTS est entièrement open source, prenant en charge :
- Utilisation commerciale gratuite
- Déploiement local
- Développement secondaire
- Appels API
Accès
- Dépôt GitHub : https://github.com/QwenLM/Qwen3-TTS
- Bibliothèque de modèles HuggingFace : https://huggingface.co/collections/Qwen/qwen3-tts
- ModelScope : https://www.modelscope.cn/collections/Qwen/Qwen3-TTS
- API Qwen : Peut être expérimenté directement via l’API officielle
Signification technique
L’open source de Qwen3-TTS apporte plusieurs percées au domaine de la synthèse vocale :
- Latence ultra-faible : Latence de bout en bout de 97ms s’approche de la vitesse de réponse de conversation humaine
- Clonage haute fidélité : Clonage vocal réalisable avec 3 secondes d’audio
- Capacité cross-linguistique : Une seule voix prend en charge le changement sans problème entre 10 langues
- Contrôle en langage naturel : Conception vocale réalisable via des descriptions textuelles
- Écosystème open source : Réduit significativement les barrières pour l’IA vocale en temps réel, personnalisée et multilingue
Avec l’open source de Qwen3-TTS, les barrières pour l’IA vocale en temps réel, personnalisée et multilingue ont été significativement réduites. Que ce soit les créateurs de contenu, les développeurs ou les applications d’entreprise, tous accueilleront une nouvelle vague de révolution d’interaction vocale.
Liens connexes
- Dépôt GitHub : https://github.com/QwenLM/Qwen3-TTS
- Modèle HuggingFace : https://huggingface.co/collections/Qwen/qwen3-tts
- ModelScope : https://www.modelscope.cn/collections/Qwen/Qwen3-TTS
- Blog officiel Qwen : https://qwenlm.github.io/blog/qwen3-tts/