Skip to content
Follow me on X
ComfyUI Wiki
ActualitésAlibaba Qwen lance Qwen3-TTS - Modèle de synthèse vocale à latence ultra-faible de 97ms
Aucun article pour le moment. Revenez plus tard !

Alibaba Qwen lance Qwen3-TTS - Modèle de synthèse vocale à latence ultra-faible de 97ms

Le 22 janvier 2026, l’équipe Alibaba Qwen a officiellement publié en open source la série de modèles de génération vocale Qwen3-TTS, un puissant système de synthèse vocale qui prend en charge de manière complète le clonage vocal, la création vocale, la génération vocale humanisée de très haute qualité et le contrôle vocal basé sur le langage naturel. Le lancement de cette série de modèles est considéré comme une percée majeure dans le domaine de la synthèse vocale.

Innovation principale

Modélisation Dual-Track

L’innovation principale de Qwen3-TTS réside dans le mécanisme de génération en streaming hybride Dual-Track (double piste), combiné avec des modèles de langage à livres de codes multiples discrets, modélisant directement la parole de bout en bout, évitant les goulots d’étranglement d’information des architectures en cascade traditionnelles (comme LM+DiT).

Cette architecture innovante réalise :

  • Latence ultra-faible : Latence de synthèse de bout en bout aussi faible que 97ms
  • Réponse instantanée : Sortie du premier paquet audio avec seulement 1 caractère d’entrée
  • Support en mode dual : Un seul modèle prend en charge la génération en streaming et non-streaming

Cette vitesse de réponse ultime s’approche de la vitesse de réponse de conversation humaine, étant idéale pour les scénarios sensibles à la latence comme l’interaction en direct, la traduction en temps réel et le service client IA.

Qwen3-TTS-Tokenizer-12Hz

Le modèle s’appuie sur l’innovant encodeur vocal à livres de codes multiples Qwen3-TTS-Tokenizer-12Hz, réalisant une compression efficace et une forte capacité de représentation des signaux vocaux :

  • Préserve complètement les informations paralinguistiques (comme l’intonation, le rythme, l’émotion)
  • Préserve les caractéristiques de l’environnement acoustique
  • Réalise une restauration vocale haute vitesse et haute fidélité grâce à une architecture non-DiT légère

Architecture LM à livres de codes multiples discrets

Adopte une architecture de modèle de langage (LM) à livres de codes multiples discrets, réalisant une modélisation de bout en bout de l’information complète de la parole :

  • Évite complètement les goulots d’étranglement d’information des solutions LM+DiT traditionnelles
  • Évite les erreurs en cascade
  • Améliore significativement la polyvalence du modèle, l’efficacité de génération et le plafond de performance

Série de modèles

Qwen3-TTS fournit deux échelles de paramètres pour répondre aux différents besoins de scénarios :

Série de modèles 1.7B

Performance ultime, contrôle puissant

Qwen3-TTS-12Hz-1.7B-VoiceDesign

  • Effectue la conception vocale basée sur des descriptions en langage naturel fournies par l’utilisateur
  • Peut définir librement les attributs acoustiques, la personnalité et les informations de fond
  • Crée des voix personnalisées uniques

Qwen3-TTS-12Hz-1.7B-CustomVoice

  • Fournit un contrôle de style sur les voix cibles via des instructions utilisateur
  • Prend en charge 9 voix premium couvrant diverses combinaisons de genre, âge, langue et dialecte
  • Peut contrôler de manière flexible la voix, l’émotion, la prosodie et d’autres attributs acoustiques multidimensionnels via des instructions

Qwen3-TTS-12Hz-1.7B-Base

  • Modèle de base, prend en charge le clonage vocal rapide à partir d’audio de 3 secondes fourni par l’utilisateur
  • Peut être utilisé pour l’ajustement fin d’autres modèles
  • Fournit une flexibilité et un espace de personnalisation maximaux

Série de modèles 0.6B

Équilibre entre performance et efficacité

Qwen3-TTS-12Hz-0.6B-CustomVoice

  • Prend en charge 9 voix premium
  • Réduit significativement la consommation de ressources tout en maintenant de bons résultats
  • Adapté au déploiement sur des appareils edge à ressources limitées ou des appareils mobiles

Qwen3-TTS-12Hz-0.6B-Base

  • Modèle de base, prend en charge le clonage vocal rapide de 3 secondes
  • Exigences de ressources de calcul plus faibles
  • Adapté aux scénarios de déploiement à haute concurrence

Caractéristiques principales

Clonage vocal rapide de 3 secondes

La capacité de clonage vocal est particulièrement impressionnante :

  • Seulement 3 secondes d’audio de référence pour réaliser une réplication vocale haute fidélité zero-shot
  • Les voix clonées prennent en charge la migration cross-linguistique sans problème
  • Les voix chinoises peuvent parler directement anglais, japonais, coréen et 10 autres langues
  • Préserve simultanément les caractéristiques vocales originales

Migration cross-linguistique/dialecte sans perte

  • Prend en charge 10 langues principales : chinois, anglais, japonais, coréen, allemand, français, russe, portugais, espagnol, italien
  • Prend en charge plusieurs dialectes chinois : dialecte du Sichuan, dialecte de Pékin, etc.
  • Restauration haute précision de l’accent et du charme
  • Ouvre de nouvelles possibilités pour la création de contenu multilingue et les applications de localisation

Conception vocale en langage naturel

La fonction Voice Design permet aux utilisateurs de personnaliser les voix via des instructions en langage naturel :

  • “Utilisez une voix féminine mature douce et encourageante pour raconter des histoires”
  • “Utilisez une voix masculine jeune excitée et aiguë pour commenter des jeux”
  • Le modèle ajuste automatiquement l’intonation, l’émotion et le rythme
  • Génère des expressions hautement personnalisées

Cette capacité de contrôle “ce que vous imaginez est ce que vous entendez” est particulièrement utile dans la production de livres audio : une personne peut jouer plusieurs rôles, maîtrisant les hauts et bas émotionnels et les changements de dialecte.

Compréhension intelligente du contexte

Le modèle a de fortes capacités de compréhension sémantique du texte :

  • Peut ajuster automatiquement le ton, le rythme et l’émotion en fonction du texte d’entrée
  • S’adapte aux différents besoins de scénarios
  • Robustesse significativement améliorée au bruit du texte d’entrée
  • Réalise une expression naturelle humanisée

Performance

Cohérence du contenu (WER)

Excellente performance dans l’évaluation de cohérence du contenu :

  • Chinois : WER 0.77
  • Anglais : WER 1.24

Génération vocale contrôlable

Qwen3-TTS-12Hz-1.7B-CustomVoice montre une performance solide dans les métriques suivantes :

  • APS (Audio Prosody Similarity) : Haute similarité de prosodie
  • DSD (Duration Similarity Distance) : Contrôle précis de la durée
  • RP (Rhythm Preservation) : Excellente préservation du rythme

Conception vocale

Qwen3-TTS-12Hz-1.7B-VoiceDesign atteint le niveau SOTA (State-of-the-Art) dans les tâches de conception vocale.

Encodeur vocal

Qwen-TTS-Tokenizer-12Hz montre d’excellentes performances dans les métriques suivantes :

  • PESQ : Évaluation perceptuelle de la qualité vocale
  • STOI : Intelligibilité objective à court terme
  • UTMOS : Score d’opinion moyen
  • SIM : Similarité

Scénarios d’application

Assistants vocaux intelligents

  • Fournit une interaction vocale naturelle pour les appareils de maison intelligente et les systèmes de véhicules
  • Prend en charge plusieurs langues et dialectes
  • Améliore l’expérience utilisateur

Création de contenu

  • Convertit rapidement le texte en voix naturelle
  • Prend en charge plusieurs voix et expressions émotionnelles
  • Adapté aux livres audio et au doublage vidéo
  • Une personne joue plusieurs rôles, produisant du contenu audio de haute qualité

Éducation

  • Fournit une sortie vocale multilingue et multi-voix pour l’apprentissage des langues et l’enseignement en ligne
  • Améliore l’efficacité de l’apprentissage
  • Prend en charge l’enseignement des dialectes

Jeux et divertissement

  • Génère des voix personnalisées pour les personnages de jeux
  • Prend en charge l’ajustement de l’émotion et du ton
  • Améliore l’immersion dans les jeux

Service client

  • Fournit une interaction vocale naturelle et amicale pour le service client intelligent
  • Prend en charge le dialogue en temps réel
  • Réduit les coûts du service client

Interaction de diffusion en direct

  • Latence ultra-faible répond aux besoins d’interaction en temps réel
  • Prend en charge la diffusion en direct multilingue
  • Améliore l’expérience de l’audience

Avantages techniques

Architecture de bout en bout

  • Évite les goulots d’étranglement d’information des architectures en cascade traditionnelles
  • Réduit les erreurs en cascade
  • Améliore la performance globale

Léger et efficace

  • L’architecture non-DiT améliore efficacement l’efficacité de calcul tout en garantissant une restauration haute fidélité
  • Le modèle 0.6B est adapté au déploiement sur appareils edge
  • Le modèle 1.7B recherche la performance ultime

Convivial pour l’open source

  • Série complète open source sur GitHub et Hugging Face
  • Prend en charge l’ajustement fin des paramètres complets
  • Les développeurs peuvent facilement construire des images vocales spécifiques à la marque

Open source et disponibilité

La série complète de modèles Qwen3-TTS est entièrement open source, prenant en charge :

  • Utilisation commerciale gratuite
  • Déploiement local
  • Développement secondaire
  • Appels API

Accès

Signification technique

L’open source de Qwen3-TTS apporte plusieurs percées au domaine de la synthèse vocale :

  1. Latence ultra-faible : Latence de bout en bout de 97ms s’approche de la vitesse de réponse de conversation humaine
  2. Clonage haute fidélité : Clonage vocal réalisable avec 3 secondes d’audio
  3. Capacité cross-linguistique : Une seule voix prend en charge le changement sans problème entre 10 langues
  4. Contrôle en langage naturel : Conception vocale réalisable via des descriptions textuelles
  5. Écosystème open source : Réduit significativement les barrières pour l’IA vocale en temps réel, personnalisée et multilingue

Avec l’open source de Qwen3-TTS, les barrières pour l’IA vocale en temps réel, personnalisée et multilingue ont été significativement réduites. Que ce soit les créateurs de contenu, les développeurs ou les applications d’entreprise, tous accueilleront une nouvelle vague de révolution d’interaction vocale.

Liens connexes