Aucun article pour le moment. Revenez plus tard !

Alibaba Qwen lance Qwen3-TTS - Modèle de synthèse vocale à latence ultra-faible de 97ms

Le 22 janvier 2026, l’équipe Alibaba Qwen a officiellement publié en open source la série de modèles de génération vocale Qwen3-TTS, un puissant système de synthèse vocale qui prend en charge de manière complète le clonage vocal, la création vocale, la génération vocale humanisée de très haute qualité et le contrôle vocal basé sur le langage naturel. Le lancement de cette série de modèles est considéré comme une percée majeure dans le domaine de la synthèse vocale.

Innovation principale

Modélisation Dual-Track

L’innovation principale de Qwen3-TTS réside dans le mécanisme de génération en streaming hybride Dual-Track (double piste), combiné avec des modèles de langage à livres de codes multiples discrets, modélisant directement la parole de bout en bout, évitant les goulots d’étranglement d’information des architectures en cascade traditionnelles (comme LM+DiT).

Cette architecture innovante réalise :

Latence ultra-faible : Latence de synthèse de bout en bout aussi faible que 97ms
Réponse instantanée : Sortie du premier paquet audio avec seulement 1 caractère d’entrée
Support en mode dual : Un seul modèle prend en charge la génération en streaming et non-streaming

Cette vitesse de réponse ultime s’approche de la vitesse de réponse de conversation humaine, étant idéale pour les scénarios sensibles à la latence comme l’interaction en direct, la traduction en temps réel et le service client IA.

Qwen3-TTS-Tokenizer-12Hz

Le modèle s’appuie sur l’innovant encodeur vocal à livres de codes multiples Qwen3-TTS-Tokenizer-12Hz, réalisant une compression efficace et une forte capacité de représentation des signaux vocaux :

Préserve complètement les informations paralinguistiques (comme l’intonation, le rythme, l’émotion)
Préserve les caractéristiques de l’environnement acoustique
Réalise une restauration vocale haute vitesse et haute fidélité grâce à une architecture non-DiT légère

Architecture LM à livres de codes multiples discrets

Adopte une architecture de modèle de langage (LM) à livres de codes multiples discrets, réalisant une modélisation de bout en bout de l’information complète de la parole :

Évite complètement les goulots d’étranglement d’information des solutions LM+DiT traditionnelles
Évite les erreurs en cascade
Améliore significativement la polyvalence du modèle, l’efficacité de génération et le plafond de performance

Série de modèles

Qwen3-TTS fournit deux échelles de paramètres pour répondre aux différents besoins de scénarios :

Série de modèles 1.7B

Performance ultime, contrôle puissant

Qwen3-TTS-12Hz-1.7B-VoiceDesign

Effectue la conception vocale basée sur des descriptions en langage naturel fournies par l’utilisateur
Peut définir librement les attributs acoustiques, la personnalité et les informations de fond
Crée des voix personnalisées uniques

Qwen3-TTS-12Hz-1.7B-CustomVoice

Fournit un contrôle de style sur les voix cibles via des instructions utilisateur
Prend en charge 9 voix premium couvrant diverses combinaisons de genre, âge, langue et dialecte
Peut contrôler de manière flexible la voix, l’émotion, la prosodie et d’autres attributs acoustiques multidimensionnels via des instructions

Qwen3-TTS-12Hz-1.7B-Base

Modèle de base, prend en charge le clonage vocal rapide à partir d’audio de 3 secondes fourni par l’utilisateur
Peut être utilisé pour l’ajustement fin d’autres modèles
Fournit une flexibilité et un espace de personnalisation maximaux

Série de modèles 0.6B

Équilibre entre performance et efficacité

Qwen3-TTS-12Hz-0.6B-CustomVoice

Prend en charge 9 voix premium
Réduit significativement la consommation de ressources tout en maintenant de bons résultats
Adapté au déploiement sur des appareils edge à ressources limitées ou des appareils mobiles

Qwen3-TTS-12Hz-0.6B-Base

Modèle de base, prend en charge le clonage vocal rapide de 3 secondes
Exigences de ressources de calcul plus faibles
Adapté aux scénarios de déploiement à haute concurrence

Caractéristiques principales

Clonage vocal rapide de 3 secondes

La capacité de clonage vocal est particulièrement impressionnante :

Seulement 3 secondes d’audio de référence pour réaliser une réplication vocale haute fidélité zero-shot
Les voix clonées prennent en charge la migration cross-linguistique sans problème
Les voix chinoises peuvent parler directement anglais, japonais, coréen et 10 autres langues
Préserve simultanément les caractéristiques vocales originales

Migration cross-linguistique/dialecte sans perte

Prend en charge 10 langues principales : chinois, anglais, japonais, coréen, allemand, français, russe, portugais, espagnol, italien
Prend en charge plusieurs dialectes chinois : dialecte du Sichuan, dialecte de Pékin, etc.
Restauration haute précision de l’accent et du charme
Ouvre de nouvelles possibilités pour la création de contenu multilingue et les applications de localisation

Conception vocale en langage naturel

La fonction Voice Design permet aux utilisateurs de personnaliser les voix via des instructions en langage naturel :

“Utilisez une voix féminine mature douce et encourageante pour raconter des histoires”
“Utilisez une voix masculine jeune excitée et aiguë pour commenter des jeux”
Le modèle ajuste automatiquement l’intonation, l’émotion et le rythme
Génère des expressions hautement personnalisées

Cette capacité de contrôle “ce que vous imaginez est ce que vous entendez” est particulièrement utile dans la production de livres audio : une personne peut jouer plusieurs rôles, maîtrisant les hauts et bas émotionnels et les changements de dialecte.

Compréhension intelligente du contexte

Le modèle a de fortes capacités de compréhension sémantique du texte :

Peut ajuster automatiquement le ton, le rythme et l’émotion en fonction du texte d’entrée
S’adapte aux différents besoins de scénarios
Robustesse significativement améliorée au bruit du texte d’entrée
Réalise une expression naturelle humanisée

Performance

Cohérence du contenu (WER)

Excellente performance dans l’évaluation de cohérence du contenu :

Chinois : WER 0.77
Anglais : WER 1.24

Génération vocale contrôlable

Qwen3-TTS-12Hz-1.7B-CustomVoice montre une performance solide dans les métriques suivantes :

APS (Audio Prosody Similarity) : Haute similarité de prosodie
DSD (Duration Similarity Distance) : Contrôle précis de la durée
RP (Rhythm Preservation) : Excellente préservation du rythme

Conception vocale

Qwen3-TTS-12Hz-1.7B-VoiceDesign atteint le niveau SOTA (State-of-the-Art) dans les tâches de conception vocale.

Encodeur vocal

Qwen-TTS-Tokenizer-12Hz montre d’excellentes performances dans les métriques suivantes :

PESQ : Évaluation perceptuelle de la qualité vocale
STOI : Intelligibilité objective à court terme
UTMOS : Score d’opinion moyen
SIM : Similarité

Scénarios d’application

Assistants vocaux intelligents

Fournit une interaction vocale naturelle pour les appareils de maison intelligente et les systèmes de véhicules
Prend en charge plusieurs langues et dialectes
Améliore l’expérience utilisateur

Création de contenu

Convertit rapidement le texte en voix naturelle
Prend en charge plusieurs voix et expressions émotionnelles
Adapté aux livres audio et au doublage vidéo
Une personne joue plusieurs rôles, produisant du contenu audio de haute qualité

Éducation

Fournit une sortie vocale multilingue et multi-voix pour l’apprentissage des langues et l’enseignement en ligne
Améliore l’efficacité de l’apprentissage
Prend en charge l’enseignement des dialectes

Jeux et divertissement

Génère des voix personnalisées pour les personnages de jeux
Prend en charge l’ajustement de l’émotion et du ton
Améliore l’immersion dans les jeux

Service client

Fournit une interaction vocale naturelle et amicale pour le service client intelligent
Prend en charge le dialogue en temps réel
Réduit les coûts du service client

Interaction de diffusion en direct

Latence ultra-faible répond aux besoins d’interaction en temps réel
Prend en charge la diffusion en direct multilingue
Améliore l’expérience de l’audience

Avantages techniques

Architecture de bout en bout

Évite les goulots d’étranglement d’information des architectures en cascade traditionnelles
Réduit les erreurs en cascade
Améliore la performance globale

Léger et efficace

L’architecture non-DiT améliore efficacement l’efficacité de calcul tout en garantissant une restauration haute fidélité
Le modèle 0.6B est adapté au déploiement sur appareils edge
Le modèle 1.7B recherche la performance ultime

Convivial pour l’open source

Série complète open source sur GitHub et Hugging Face
Prend en charge l’ajustement fin des paramètres complets
Les développeurs peuvent facilement construire des images vocales spécifiques à la marque

Open source et disponibilité

La série complète de modèles Qwen3-TTS est entièrement open source, prenant en charge :

Utilisation commerciale gratuite
Déploiement local
Développement secondaire
Appels API

Accès

Dépôt GitHub : https://github.com/QwenLM/Qwen3-TTS
Bibliothèque de modèles HuggingFace : https://huggingface.co/collections/Qwen/qwen3-tts
ModelScope : https://www.modelscope.cn/collections/Qwen/Qwen3-TTS
API Qwen : Peut être expérimenté directement via l’API officielle

Signification technique

L’open source de Qwen3-TTS apporte plusieurs percées au domaine de la synthèse vocale :

Latence ultra-faible : Latence de bout en bout de 97ms s’approche de la vitesse de réponse de conversation humaine
Clonage haute fidélité : Clonage vocal réalisable avec 3 secondes d’audio
Capacité cross-linguistique : Une seule voix prend en charge le changement sans problème entre 10 langues
Contrôle en langage naturel : Conception vocale réalisable via des descriptions textuelles
Écosystème open source : Réduit significativement les barrières pour l’IA vocale en temps réel, personnalisée et multilingue

Avec l’open source de Qwen3-TTS, les barrières pour l’IA vocale en temps réel, personnalisée et multilingue ont été significativement réduites. Que ce soit les créateurs de contenu, les développeurs ou les applications d’entreprise, tous accueilleront une nouvelle vague de révolution d’interaction vocale.

Liens connexes

Dépôt GitHub : https://github.com/QwenLM/Qwen3-TTS
Modèle HuggingFace : https://huggingface.co/collections/Qwen/qwen3-tts
ModelScope : https://www.modelscope.cn/collections/Qwen/Qwen3-TTS
Blog officiel Qwen : https://qwenlm.github.io/blog/qwen3-tts/