Higgs TTS 3: Modelo de Voz Multilingüe de 4B de Boson AI con Soporte para Más de 100 Idiomas

news

Higgs TTS 3 es un modelo de texto a voz de 4 mil millones de parámetros que admite más de 100 idiomas con clonación de voz zero-shot, control emocional expresivo y efectos de sonido/prosodia en línea para aplicaciones de agentes de voz.

Higgs TTS 3 es un modelo de texto a voz multilingüe de 4 mil millones de parámetros de Boson AI que admite más de 100 idiomas con generación de voz expresiva, clonación de voz zero-shot y control detallado sobre emoción, prosodia y efectos de sonido.

Visión general

Lanzado por Boson AI el 4 de junio de 2026, Higgs TTS 3 (ID del modelo: bosonai/higgs-tts-3-4b) es un potente modelo de texto a voz de 4 mil millones de parámetros diseñado específicamente para aplicaciones de agentes de voz e IA conversacional. A diferencia de los sistemas TTS tradicionales que simplemente "leen" texto, Higgs TTS 3 está diseñado para "hablar", generando voz conversacional expresiva y natural con matices emocionales.

El modelo se basa en una arquitectura multimodal Higgs basada en Qwen3, con un decodificador autorregresivo que consume tokens de texto y audio intercalados. El audio es codificado por el Higgs Tokenizer en 8 libros de códigos a 25 fps usando un patrón de retardo escalonado, luego decodificado de vuelta a forma de onda de alta calidad.

Características Principales

CaracterísticaDescripción
Parámetros4 mil millones
IdiomasMás de 100 (amplia cobertura multilingüe)
ArquitecturaDecodificador autorregresivo multimodal Higgs basado en Qwen3
Clonación de VozClonación de voz zero-shot a partir de audio de referencia
Control21 emociones, 10 controles de prosodia, efectos de sonido en línea
LicenciaInvestigación y uso no comercial
LibreríaTransformers (Hugging Face)

Soporte Multilingüe

Higgs TTS 3 admite más de 100 idiomas, incluyendo las principales familias lingüísticas:

  • Europeo: Inglés, Español, Francés, Alemán, Italiano, Portugués, Ruso, Polaco, Neerlandés, Sueco, Noruego, Danés, Finés, Griego, Checo, Rumano, Húngaro, Ucraniano y muchos más
  • Asiático: Chino (mandarín/cantonés), Japonés, Coreano, Hindi, Bengalí, Tamil, Telugu, Urdu, Vietnamita, Tailandés, Indonesio, Malayo, Birmano, Jemer, Lao y más
  • Oriente Medio / Africano: Árabe, Hebreo, Turco, Persa (farsi), Suajili, Amárico, Hausa, Yoruba, Igbo, Zulú, Xhosa y más
  • Otros: Tagalo, Nepalí, Cingalés, Georgiano, Armenio, Azerbaiyano, Kazajo, Uzbeko y muchos más

Control Expresivo

Higgs TTS 3 proporciona un control detallado sobre la salida de voz mediante etiquetas de control en línea incrustadas en el texto de entrada:

21 Emociones (a nivel de oración)

afecto, diversión, ira, excitación, asombro, amargura, confusión, contemplación, contento, determinación, asco, euforia, entusiasmo, miedo, impotencia, anhelo, orgullo, alivio, tristeza, vergüenza, sorpresa

Controles de Prosodia (10)

Control de velocidad: velocidad_muy_lenta, velocidad_lenta, velocidad_rápida, velocidad_muy_rápida Tono: tono_bajo, tono_alto Expresividad: expresivo_más, expresivo_menos, pausa, pausa_larga

Efectos de Sonido en Línea

Los efectos de sonido se pueden activar en línea: tos, risa, suspiro, aplausos, campana, golpe y muchos más.

Ejemplo de Uso

<|emotion:elation|>Welcome aboard, we are absolutely thrilled to have you here!
<|sfx:cough|>Ahem, let me begin today's presentation.
<|style:whispering|>Come closer, I have a little secret to share.

Clonación de Voz Zero-Shot

El modelo admite clonación de voz zero-shot a partir de una muestra de audio de referencia corta, lo que permite sintetizar voz en una voz objetivo sin ningún ajuste fino. Esto lo hace adecuado para:

  • Aplicaciones de agentes de voz con voces de personajes consistentes
  • Creación de contenido multilingüe en una sola voz
  • Síntesis de voz personalizada

Disponibilidad

Higgs TTS 3 se publica para investigación y uso no comercial bajo una licencia personalizada. Los usos prohibidos incluyen clonación de voz sin consentimiento, suplantación de identidad, fraude, engaño electoral y vigilancia biométrica.

Resumen

Higgs TTS 3 representa un avance significativo en la síntesis de voz multilingüe de pesos abiertos, combinando una base de 4 mil millones de parámetros con una amplia cobertura de idiomas, control emocional expresivo y capacidades de clonación de voz zero-shot. Para desarrolladores que construyen agentes de voz o aplicaciones de voz multilingües, ofrece una solución atractiva de nivel de investigación con expresividad de última generación.

Higgs TTS 3: Modelo de Voz Multilingüe de 4B de Boson AI con Soporte para Más de 100 Idiomas | ComfyUI Wiki