Higgs TTS 3: Modelo de Voz Multilingüe de 4B de Boson AI con Soporte para Más de 100 Idiomas
Higgs TTS 3 es un modelo de texto a voz de 4 mil millones de parámetros que admite más de 100 idiomas con clonación de voz zero-shot, control emocional expresivo y efectos de sonido/prosodia en línea para aplicaciones de agentes de voz.
Visión general
Lanzado por Boson AI el 4 de junio de 2026, Higgs TTS 3 (ID del modelo: bosonai/higgs-tts-3-4b) es un potente modelo de texto a voz de 4 mil millones de parámetros diseñado específicamente para aplicaciones de agentes de voz e IA conversacional. A diferencia de los sistemas TTS tradicionales que simplemente "leen" texto, Higgs TTS 3 está diseñado para "hablar", generando voz conversacional expresiva y natural con matices emocionales.
El modelo se basa en una arquitectura multimodal Higgs basada en Qwen3, con un decodificador autorregresivo que consume tokens de texto y audio intercalados. El audio es codificado por el Higgs Tokenizer en 8 libros de códigos a 25 fps usando un patrón de retardo escalonado, luego decodificado de vuelta a forma de onda de alta calidad.
Características Principales
| Característica | Descripción |
|---|---|
| Parámetros | 4 mil millones |
| Idiomas | Más de 100 (amplia cobertura multilingüe) |
| Arquitectura | Decodificador autorregresivo multimodal Higgs basado en Qwen3 |
| Clonación de Voz | Clonación de voz zero-shot a partir de audio de referencia |
| Control | 21 emociones, 10 controles de prosodia, efectos de sonido en línea |
| Licencia | Investigación y uso no comercial |
| Librería | Transformers (Hugging Face) |
Soporte Multilingüe
Higgs TTS 3 admite más de 100 idiomas, incluyendo las principales familias lingüísticas:
- Europeo: Inglés, Español, Francés, Alemán, Italiano, Portugués, Ruso, Polaco, Neerlandés, Sueco, Noruego, Danés, Finés, Griego, Checo, Rumano, Húngaro, Ucraniano y muchos más
- Asiático: Chino (mandarín/cantonés), Japonés, Coreano, Hindi, Bengalí, Tamil, Telugu, Urdu, Vietnamita, Tailandés, Indonesio, Malayo, Birmano, Jemer, Lao y más
- Oriente Medio / Africano: Árabe, Hebreo, Turco, Persa (farsi), Suajili, Amárico, Hausa, Yoruba, Igbo, Zulú, Xhosa y más
- Otros: Tagalo, Nepalí, Cingalés, Georgiano, Armenio, Azerbaiyano, Kazajo, Uzbeko y muchos más
Control Expresivo
Higgs TTS 3 proporciona un control detallado sobre la salida de voz mediante etiquetas de control en línea incrustadas en el texto de entrada:
21 Emociones (a nivel de oración)
afecto, diversión, ira, excitación, asombro, amargura, confusión, contemplación, contento, determinación, asco, euforia, entusiasmo, miedo, impotencia, anhelo, orgullo, alivio, tristeza, vergüenza, sorpresa
Controles de Prosodia (10)
Control de velocidad: velocidad_muy_lenta, velocidad_lenta, velocidad_rápida, velocidad_muy_rápida
Tono: tono_bajo, tono_alto
Expresividad: expresivo_más, expresivo_menos, pausa, pausa_larga
Efectos de Sonido en Línea
Los efectos de sonido se pueden activar en línea: tos, risa, suspiro, aplausos, campana, golpe y muchos más.
Ejemplo de Uso
<|emotion:elation|>Welcome aboard, we are absolutely thrilled to have you here!
<|sfx:cough|>Ahem, let me begin today's presentation.
<|style:whispering|>Come closer, I have a little secret to share.Clonación de Voz Zero-Shot
El modelo admite clonación de voz zero-shot a partir de una muestra de audio de referencia corta, lo que permite sintetizar voz en una voz objetivo sin ningún ajuste fino. Esto lo hace adecuado para:
- Aplicaciones de agentes de voz con voces de personajes consistentes
- Creación de contenido multilingüe en una sola voz
- Síntesis de voz personalizada
Disponibilidad
- Hugging Face: bosonai/higgs-tts-3-4b
- Artículo del Blog: Blog de Boson AI: Higgs Audio v3
Resumen
Higgs TTS 3 representa un avance significativo en la síntesis de voz multilingüe de pesos abiertos, combinando una base de 4 mil millones de parámetros con una amplia cobertura de idiomas, control emocional expresivo y capacidades de clonación de voz zero-shot. Para desarrolladores que construyen agentes de voz o aplicaciones de voz multilingües, ofrece una solución atractiva de nivel de investigación con expresividad de última generación.