Higgs TTS 3 : Le modèle de synthèse vocale multilingue 4B de Boson AI avec support de plus de 100 langues

Higgs TTS 3 est un modèle de synthèse vocale multilingue de 4 milliards de paramètres de Boson AI qui prend en charge plus de 100 langues avec une génération vocale expressive, un clonage vocal zero-shot et un contrôle fin des émotions, de la prosodie et des effets sonores.

Présentation

Publié par Boson AI le 4 juin 2026, Higgs TTS 3 (ID du modèle : bosonai/higgs-tts-3-4b) est un puissant modèle de synthèse vocale de 4 milliards de paramètres conçu spécifiquement pour les applications d'agents vocaux et d'IA conversationnelle. Contrairement aux systèmes TTS traditionnels qui se contentent de « lire » le texte, Higgs TTS 3 est conçu pour « parler » : générant une parole conversationnelle naturelle et expressive avec une nuance émotionnelle.

Le modèle est basé sur une architecture multimodale Higgs basée sur Qwen3, avec un décodeur autorégressif qui consomme des jetons de texte et d'audio entrelacés. L'audio est encodé par le Higgs Tokenizer en 8 codebooks à 25 images par seconde en utilisant un motif de retard décalé, puis décodé en une forme d'onde de haute qualité.

Principales fonctionnalités

| Fonctionnalité | Description | |

Support multilingue

Higgs TTS 3 prend en charge plus de 100 langues, y compris les grandes familles linguistiques :

Européennes : Anglais, Espagnol, Français, Allemand, Italien, Portugais, Russe, Polonais, Néerlandais, Suédois, Norvégien, Danois, Finnois, Grec, Tchèque, Roumain, Hongrois, Ukrainien, et bien d'autres
Asiatiques : Chinois (Mandarin/Cantonais), Japonais, Coréen, Hindi, Bengali, Tamoul, Telugu, Ourdou, Vietnamien, Thaï, Indonésien, Malais, Birman, Khmer, Lao, et plus
Moyen-Orient / Africaines : Arabe, Hébreu, Turc, Persan (Farsi), Swahili, Amharique, Haoussa, Yoruba, Igbo, Zoulou, Xhosa, et plus
Autres : Tagalog, Népalais, Cinghalais, Géorgien, Arménien, Azéri, Kazakh, Ouzbek, et bien d'autres

Contrôle expressif

Higgs TTS 3 offre un contrôle fin sur la sortie vocale grâce à des balises de contrôle en ligne intégrées dans le texte d'entrée :

21 émotions (au niveau de la phrase)

affection, amusement, anger, arousal, awe, bitterness, confusion, contemplation, contentment, determination, disgust, elation, enthusiasm, fear, helplessness, longing, pride, relief, sadness, shame, surprise

Contrôles de prosodie (10)

Contrôle de vitesse : speed_very_slow, speed_slow, speed_fast, speed_very_fast Hauteur : pitch_low, pitch_high Expressivité : expressive_more, expressive_less, pause, long_pause

Effets sonores en ligne

Les effets sonores peuvent être déclenchés en ligne : cough, laughter, sigh, applause, bell, knock, et bien d'autres.

Exemple d'utilisation

<|emotion:elation|>Welcome aboard, we are absolutely thrilled to have you here!
<|sfx:cough|>Ahem, let me begin today's presentation.
<|style:whispering|>Come closer, I have a little secret to share.

Clonage vocal zero-shot

Le modèle prend en charge le clonage vocal zero-shot à partir d'un échantillon audio de référence court, lui permettant de synthétiser la parole dans une voix cible sans aucun réglage fin. Cela le rend adapté pour :

Applications d'agents vocaux avec des voix de personnages cohérentes
Création de contenu multilingue en une seule voix
Synthèse vocale personnalisée

Disponibilité

Hugging Face : bosonai/higgs-tts-3-4b
Article de blog : Boson AI Blog: Higgs Audio v3

Higgs TTS 3 est publié pour une utilisation en recherche et non commerciale sous une licence personnalisée. Les utilisations interdites incluent le clonage vocal sans consentement, l'usurpation d'identité, la fraude, la tromperie électorale et la surveillance biométrique.

Résumé

Higgs TTS 3 représente une avancée significative dans la synthèse vocale multilingue à poids ouverts, combinant un cœur de 4 milliards de paramètres avec une couverture linguistique étendue, un contrôle émotionnel expressif et des capacités de clonage vocal zero-shot. Pour les développeurs créant des agents vocaux ou des applications de synthèse vocale multilingues, il offre une solution de recherche convaincante avec une expressivité de pointe.