OpenMOSS lanza MOVA - modelo de generación sincronizada de video y audio de código abierto

29/01/2026

Alibaba Qwen lanza Qwen3-TTS - Modelo de síntesis de voz con latencia ultra baja de 97ms

El 22 de enero de 2026, el equipo de Alibaba Qwen publicó oficialmente como código abierto la serie de modelos de generación de voz Qwen3-TTS, un poderoso sistema de síntesis de voz que soporta integralmente clonación de voz, creación de voz, generación de voz humanizada de ultra alta calidad y control de voz basado en lenguaje natural. El lanzamiento de esta serie de modelos se considera un avance importante en el campo de la síntesis de voz.

Innovación principal

Modelado Dual-Track

La innovación principal de Qwen3-TTS radica en el mecanismo de generación de streaming híbrido Dual-Track (doble pista), combinado con modelos de lenguaje de múltiples libros de códigos discretos, modelando directamente el habla de extremo a extremo, evitando cuellos de botella de información de arquitecturas en cascada tradicionales (como LM+DiT).

Esta arquitectura innovadora logra:

Latencia ultra baja: Latencia de síntesis de extremo a extremo tan baja como 97ms
Respuesta instantánea: Salida del primer paquete de audio con solo 1 carácter de entrada
Soporte de modo dual: Un solo modelo soporta generación tanto de streaming como no streaming

Esta velocidad de respuesta definitiva se aproxima a la velocidad de respuesta de conversación humana, siendo ideal para escenarios sensibles a la latencia como interacción en vivo, traducción en tiempo real y servicio al cliente de IA.

Qwen3-TTS-Tokenizer-12Hz

El modelo se basa en el innovador codificador de voz de múltiples libros de códigos Qwen3-TTS-Tokenizer-12Hz, logrando compresión eficiente y fuerte capacidad de representación de señales de voz:

Preserva completamente información paralingüística (como entonación, ritmo, emoción)
Preserva características del entorno acústico
Logra restauración de voz de alta velocidad y alta fidelidad a través de arquitectura no DiT ligera

Arquitectura LM de múltiples libros de códigos discretos

Adopta arquitectura de modelo de lenguaje (LM) de múltiples libros de códigos discretos, logrando modelado de extremo a extremo de información completa del habla:

Evita completamente cuellos de botella de información de soluciones LM+DiT tradicionales
Evita errores en cascada
Mejora significativamente la versatilidad del modelo, eficiencia de generación y techo de rendimiento

Serie de modelos

Qwen3-TTS proporciona dos escalas de parámetros para satisfacer diferentes necesidades de escenarios:

Serie de modelos 1.7B

Rendimiento definitivo, control poderoso

Qwen3-TTS-12Hz-1.7B-VoiceDesign

Realiza diseño de voz basado en descripciones en lenguaje natural proporcionadas por el usuario
Puede definir libremente atributos acústicos, personalidad e información de fondo
Crea voces personalizadas únicas

Qwen3-TTS-12Hz-1.7B-CustomVoice

Proporciona control de estilo sobre voces objetivo a través de instrucciones del usuario
Soporta 9 voces premium cubriendo varias combinaciones de género, edad, idioma y dialecto
Puede controlar flexiblemente voz, emoción, prosodia y otros atributos acústticos multidimensionales a través de instrucciones

Qwen3-TTS-12Hz-1.7B-Base

Modelo base, soporta clonación rápida de voz desde audio de 3 segundos proporcionado por el usuario
Puede usarse para ajuste fino de otros modelos
Proporciona máxima flexibilidad y espacio de personalización

Serie de modelos 0.6B

Equilibrio entre rendimiento y eficiencia

Qwen3-TTS-12Hz-0.6B-CustomVoice

Soporta 9 voces premium
Reduce significativamente el consumo de recursos mientras mantiene buenos resultados
Adecuado para implementación en dispositivos edge con recursos limitados o dispositivos móviles

Qwen3-TTS-12Hz-0.6B-Base

Modelo base, soporta clonación rápida de voz de 3 segundos
Menores requisitos de recursos computacionales
Adecuado para escenarios de implementación de alta concurrencia

Características principales

Clonación rápida de voz de 3 segundos

La capacidad de clonación de voz es particularmente impresionante:

Solo 3 segundos de audio de referencia para lograr replicación de voz de alta fidelidad zero-shot
Las voces clonadas soportan migración cross-lingüística sin problemas
Las voces en chino pueden hablar directamente inglés, japonés, coreano y 10 idiomas más
Preserva simultáneamente las características de voz originales

Migración cross-lingüística/dialecto sin pérdidas

Soporta 10 idiomas principales: chino, inglés, japonés, coreano, alemán, francés, ruso, portugués, español, italiano
Soporta múltiples dialectos chinos: dialecto de Sichuan, dialecto de Beijing, etc.
Restauración de alta precisión de acento y encanto
Abre nuevas posibilidades para creación de contenido multilingüe y aplicaciones de localización

Diseño de voz en lenguaje natural

La función Voice Design permite a los usuarios personalizar voces a través de instrucciones en lenguaje natural:

“Usa una voz femenina madura gentil y alentadora para contar historias”
“Usa una voz masculina joven emocionada y aguda para comentar juegos”
El modelo ajusta automáticamente entonación, emoción y ritmo
Genera expresiones altamente personalizadas

Esta capacidad de control “lo que imaginas es lo que escuchas” es particularmente útil en la producción de audiolibros: una persona puede interpretar múltiples roles, dominando altibajos emocionales y cambios de dialecto.

Comprensión inteligente del contexto

El modelo tiene fuertes capacidades de comprensión semántica de texto:

Puede ajustar automáticamente tono, ritmo y emoción basándose en el texto de entrada
Se adapta a diferentes necesidades de escenarios
Robustez significativamente mejorada al ruido del texto de entrada
Logra expresión natural humanizada

Rendimiento

Consistencia de contenido (WER)

Excelente rendimiento en evaluación de consistencia de contenido:

Chino: WER 0.77
Inglés: WER 1.24

Generación de voz controlable

Qwen3-TTS-12Hz-1.7B-CustomVoice muestra rendimiento sólido en las siguientes métricas:

APS (Audio Prosody Similarity): Alta similitud de prosodia
DSD (Duration Similarity Distance): Control preciso de duración
RP (Rhythm Preservation): Excelente preservación del ritmo

Diseño de voz

Qwen3-TTS-12Hz-1.7B-VoiceDesign alcanza nivel SOTA (State-of-the-Art) en tareas de diseño de voz.

Codificador de voz

Qwen-TTS-Tokenizer-12Hz muestra excelente rendimiento en las siguientes métricas:

PESQ: Evaluación perceptual de calidad de voz
STOI: Inteligibilidad objetiva de corto plazo
UTMOS: Puntuación de opinión media
SIM: Similitud

Escenarios de aplicación

Asistentes de voz inteligentes

Proporciona interacción de voz natural para dispositivos de hogar inteligente y sistemas de vehículos
Soporta múltiples idiomas y dialectos
Mejora la experiencia del usuario

Creación de contenido

Convierte rápidamente texto a voz natural
Soporta múltiples voces y expresiones emocionales
Adecuado para audiolibros y doblaje de video
Una persona interpreta múltiples roles, produciendo contenido de audio de alta calidad

Educación

Proporciona salida de voz multilingüe y multi-voz para aprendizaje de idiomas y enseñanza en línea
Mejora la efectividad del aprendizaje
Soporta enseñanza de dialectos

Juegos y entretenimiento

Genera voces personalizadas para personajes de juegos
Soporta ajuste de emoción y tono
Mejora la inmersión en juegos

Servicio al cliente

Proporciona interacción de voz natural y amigable para servicio al cliente inteligente
Soporta diálogo en tiempo real
Reduce costos de servicio al cliente

Interacción de transmisión en vivo

Latencia ultra baja satisface necesidades de interacción en tiempo real
Soporta transmisión en vivo multilingüe
Mejora la experiencia de la audiencia

Ventajas técnicas

Arquitectura de extremo a extremo

Evita cuellos de botella de información de arquitecturas en cascada tradicionales
Reduce errores en cascada
Mejora el rendimiento general

Ligero y eficiente

La arquitectura no DiT mejora efectivamente la eficiencia computacional mientras garantiza restauración de alta fidelidad
El modelo 0.6B es adecuado para implementación en dispositivos edge
El modelo 1.7B busca rendimiento definitivo

Amigable con código abierto

Serie completa de código abierto en GitHub y Hugging Face
Soporta ajuste fino de parámetros completos
Los desarrolladores pueden construir fácilmente imágenes de voz específicas de marca

Código abierto y disponibilidad

La serie completa de modelos Qwen3-TTS es completamente de código abierto, soportando:

Uso comercial gratuito
Implementación local
Desarrollo secundario
Llamadas API

Acceso

Repositorio GitHub: https://github.com/QwenLM/Qwen3-TTS
Biblioteca de modelos HuggingFace: https://huggingface.co/collections/Qwen/qwen3-tts
ModelScope: https://www.modelscope.cn/collections/Qwen/Qwen3-TTS
API Qwen: Puede experimentarse directamente a través de la API oficial

Significado técnico

El código abierto de Qwen3-TTS trae múltiples avances al campo de la síntesis de voz:

Latencia ultra baja: Latencia de extremo a extremo de 97ms se aproxima a la velocidad de respuesta de conversación humana
Clonación de alta fidelidad: Clonación de voz lograble con 3 segundos de audio
Capacidad cross-lingüística: Una sola voz soporta cambio sin problemas entre 10 idiomas
Control en lenguaje natural: Diseño de voz lograble a través de descripciones de texto
Ecosistema de código abierto: Reduce significativamente las barreras para IA de voz en tiempo real, personalizada y multilingüe

Con el código abierto de Qwen3-TTS, las barreras para IA de voz en tiempo real, personalizada y multilingüe se han reducido significativamente. Ya sean creadores de contenido, desarrolladores o aplicaciones empresariales, todos darán la bienvenida a una nueva ola de revolución de interacción de voz.

Enlaces relacionados

Repositorio GitHub: https://github.com/QwenLM/Qwen3-TTS
Modelo HuggingFace: https://huggingface.co/collections/Qwen/qwen3-tts
ModelScope: https://www.modelscope.cn/collections/Qwen/Qwen3-TTS
Blog oficial Qwen: https://qwenlm.github.io/blog/qwen3-tts/