Higgs TTS 3 : Le modèle de synthèse vocale multilingue 4B de Boson AI avec support de plus de 100 langues
Higgs TTS 3 est un modèle de synthèse vocale de 4 milliards de paramètres prenant en charge plus de 100 langues avec clonage vocal zero-shot, contrôle émotionnel expressif et effets sonores/prosodie en ligne pour les applications d'agents vocaux.
Présentation
Publié par Boson AI le 4 juin 2026, Higgs TTS 3 (ID du modèle : bosonai/higgs-tts-3-4b) est un puissant modèle de synthèse vocale de 4 milliards de paramètres conçu spécifiquement pour les applications d'agents vocaux et d'IA conversationnelle. Contrairement aux systèmes TTS traditionnels qui se contentent de « lire » le texte, Higgs TTS 3 est conçu pour « parler » : générant une parole conversationnelle naturelle et expressive avec une nuance émotionnelle.
Le modèle est basé sur une architecture multimodale Higgs basée sur Qwen3, avec un décodeur autorégressif qui consomme des jetons de texte et d'audio entrelacés. L'audio est encodé par le Higgs Tokenizer en 8 codebooks à 25 images par seconde en utilisant un motif de retard décalé, puis décodé en une forme d'onde de haute qualité.
Principales fonctionnalités
| Fonctionnalité | Description | |
|
-| | Paramètres | 4 milliards | | Langues | 100+ (couverture multilingue étendue) | | Architecture | Décodeur autorégressif multimodal Higgs basé sur Qwen3 | | Clonage vocal | Clonage vocal zero-shot à partir d'un audio de référence | | Contrôle | 21 émotions, 10 contrôles de prosodie, effets sonores en ligne | | Licence | Recherche et non commerciale | | Bibliothèque | Transformers (Hugging Face) |
Support multilingue
Higgs TTS 3 prend en charge plus de 100 langues, y compris les grandes familles linguistiques :
- Européennes : Anglais, Espagnol, Français, Allemand, Italien, Portugais, Russe, Polonais, Néerlandais, Suédois, Norvégien, Danois, Finnois, Grec, Tchèque, Roumain, Hongrois, Ukrainien, et bien d'autres
- Asiatiques : Chinois (Mandarin/Cantonais), Japonais, Coréen, Hindi, Bengali, Tamoul, Telugu, Ourdou, Vietnamien, Thaï, Indonésien, Malais, Birman, Khmer, Lao, et plus
- Moyen-Orient / Africaines : Arabe, Hébreu, Turc, Persan (Farsi), Swahili, Amharique, Haoussa, Yoruba, Igbo, Zoulou, Xhosa, et plus
- Autres : Tagalog, Népalais, Cinghalais, Géorgien, Arménien, Azéri, Kazakh, Ouzbek, et bien d'autres
Contrôle expressif
Higgs TTS 3 offre un contrôle fin sur la sortie vocale grâce à des balises de contrôle en ligne intégrées dans le texte d'entrée :
21 émotions (au niveau de la phrase)
affection, amusement, anger, arousal, awe, bitterness, confusion, contemplation, contentment, determination, disgust, elation, enthusiasm, fear, helplessness, longing, pride, relief, sadness, shame, surprise
Contrôles de prosodie (10)
Contrôle de vitesse : speed_very_slow, speed_slow, speed_fast, speed_very_fast
Hauteur : pitch_low, pitch_high
Expressivité : expressive_more, expressive_less, pause, long_pause
Effets sonores en ligne
Les effets sonores peuvent être déclenchés en ligne : cough, laughter, sigh, applause, bell, knock, et bien d'autres.
Exemple d'utilisation
<|emotion:elation|>Welcome aboard, we are absolutely thrilled to have you here!
<|sfx:cough|>Ahem, let me begin today's presentation.
<|style:whispering|>Come closer, I have a little secret to share.Clonage vocal zero-shot
Le modèle prend en charge le clonage vocal zero-shot à partir d'un échantillon audio de référence court, lui permettant de synthétiser la parole dans une voix cible sans aucun réglage fin. Cela le rend adapté pour :
- Applications d'agents vocaux avec des voix de personnages cohérentes
- Création de contenu multilingue en une seule voix
- Synthèse vocale personnalisée
Disponibilité
- Hugging Face : bosonai/higgs-tts-3-4b
- Article de blog : Boson AI Blog: Higgs Audio v3
Résumé
Higgs TTS 3 représente une avancée significative dans la synthèse vocale multilingue à poids ouverts, combinant un cœur de 4 milliards de paramètres avec une couverture linguistique étendue, un contrôle émotionnel expressif et des capacités de clonage vocal zero-shot. Pour les développeurs créant des agents vocaux ou des applications de synthèse vocale multilingues, il offre une solution de recherche convaincante avec une expressivité de pointe.