Higgs TTS 3: Modelo de Voz Multilingüe de 4B de Boson AI con Soporte para Más de 100 Idiomas

Higgs TTS 3 es un modelo de texto a voz multilingüe de 4 mil millones de parámetros de Boson AI que admite más de 100 idiomas con generación de voz expresiva, clonación de voz zero-shot y control detallado sobre emoción, prosodia y efectos de sonido.

Visión general

Lanzado por Boson AI el 4 de junio de 2026, Higgs TTS 3 (ID del modelo: bosonai/higgs-tts-3-4b) es un potente modelo de texto a voz de 4 mil millones de parámetros diseñado específicamente para aplicaciones de agentes de voz e IA conversacional. A diferencia de los sistemas TTS tradicionales que simplemente "leen" texto, Higgs TTS 3 está diseñado para "hablar", generando voz conversacional expresiva y natural con matices emocionales.

El modelo se basa en una arquitectura multimodal Higgs basada en Qwen3, con un decodificador autorregresivo que consume tokens de texto y audio intercalados. El audio es codificado por el Higgs Tokenizer en 8 libros de códigos a 25 fps usando un patrón de retardo escalonado, luego decodificado de vuelta a forma de onda de alta calidad.

Características Principales

Característica	Descripción
Parámetros	4 mil millones
Idiomas	Más de 100 (amplia cobertura multilingüe)
Arquitectura	Decodificador autorregresivo multimodal Higgs basado en Qwen3
Clonación de Voz	Clonación de voz zero-shot a partir de audio de referencia
Control	21 emociones, 10 controles de prosodia, efectos de sonido en línea
Licencia	Investigación y uso no comercial
Librería	Transformers (Hugging Face)

Soporte Multilingüe

Higgs TTS 3 admite más de 100 idiomas, incluyendo las principales familias lingüísticas:

Europeo: Inglés, Español, Francés, Alemán, Italiano, Portugués, Ruso, Polaco, Neerlandés, Sueco, Noruego, Danés, Finés, Griego, Checo, Rumano, Húngaro, Ucraniano y muchos más
Asiático: Chino (mandarín/cantonés), Japonés, Coreano, Hindi, Bengalí, Tamil, Telugu, Urdu, Vietnamita, Tailandés, Indonesio, Malayo, Birmano, Jemer, Lao y más
Oriente Medio / Africano: Árabe, Hebreo, Turco, Persa (farsi), Suajili, Amárico, Hausa, Yoruba, Igbo, Zulú, Xhosa y más
Otros: Tagalo, Nepalí, Cingalés, Georgiano, Armenio, Azerbaiyano, Kazajo, Uzbeko y muchos más

Control Expresivo

Higgs TTS 3 proporciona un control detallado sobre la salida de voz mediante etiquetas de control en línea incrustadas en el texto de entrada:

21 Emociones (a nivel de oración)

afecto, diversión, ira, excitación, asombro, amargura, confusión, contemplación, contento, determinación, asco, euforia, entusiasmo, miedo, impotencia, anhelo, orgullo, alivio, tristeza, vergüenza, sorpresa

Controles de Prosodia (10)

Control de velocidad: velocidad_muy_lenta, velocidad_lenta, velocidad_rápida, velocidad_muy_rápida Tono: tono_bajo, tono_alto Expresividad: expresivo_más, expresivo_menos, pausa, pausa_larga

Efectos de Sonido en Línea

Los efectos de sonido se pueden activar en línea: tos, risa, suspiro, aplausos, campana, golpe y muchos más.

Ejemplo de Uso

<|emotion:elation|>Welcome aboard, we are absolutely thrilled to have you here!
<|sfx:cough|>Ahem, let me begin today's presentation.
<|style:whispering|>Come closer, I have a little secret to share.

Clonación de Voz Zero-Shot

El modelo admite clonación de voz zero-shot a partir de una muestra de audio de referencia corta, lo que permite sintetizar voz en una voz objetivo sin ningún ajuste fino. Esto lo hace adecuado para:

Aplicaciones de agentes de voz con voces de personajes consistentes
Creación de contenido multilingüe en una sola voz
Síntesis de voz personalizada

Disponibilidad

Hugging Face: bosonai/higgs-tts-3-4b
Artículo del Blog: Blog de Boson AI: Higgs Audio v3

Higgs TTS 3 se publica para investigación y uso no comercial bajo una licencia personalizada. Los usos prohibidos incluyen clonación de voz sin consentimiento, suplantación de identidad, fraude, engaño electoral y vigilancia biométrica.

Resumen

Higgs TTS 3 representa un avance significativo en la síntesis de voz multilingüe de pesos abiertos, combinando una base de 4 mil millones de parámetros con una amplia cobertura de idiomas, control emocional expresivo y capacidades de clonación de voz zero-shot. Para desarrolladores que construyen agentes de voz o aplicaciones de voz multilingües, ofrece una solución atractiva de nivel de investigación con expresividad de última generación.