OpenMOSS lanza MOVA - modelo de generación sincronizada de video y audio de código abierto
29/01/2026
Alibaba Qwen lanza Qwen3-TTS - Modelo de síntesis de voz con latencia ultra baja de 97ms
El 22 de enero de 2026, el equipo de Alibaba Qwen publicó oficialmente como código abierto la serie de modelos de generación de voz Qwen3-TTS, un poderoso sistema de síntesis de voz que soporta integralmente clonación de voz, creación de voz, generación de voz humanizada de ultra alta calidad y control de voz basado en lenguaje natural. El lanzamiento de esta serie de modelos se considera un avance importante en el campo de la síntesis de voz.
Innovación principal
Modelado Dual-Track
La innovación principal de Qwen3-TTS radica en el mecanismo de generación de streaming híbrido Dual-Track (doble pista), combinado con modelos de lenguaje de múltiples libros de códigos discretos, modelando directamente el habla de extremo a extremo, evitando cuellos de botella de información de arquitecturas en cascada tradicionales (como LM+DiT).
Esta arquitectura innovadora logra:
- Latencia ultra baja: Latencia de síntesis de extremo a extremo tan baja como 97ms
- Respuesta instantánea: Salida del primer paquete de audio con solo 1 carácter de entrada
- Soporte de modo dual: Un solo modelo soporta generación tanto de streaming como no streaming
Esta velocidad de respuesta definitiva se aproxima a la velocidad de respuesta de conversación humana, siendo ideal para escenarios sensibles a la latencia como interacción en vivo, traducción en tiempo real y servicio al cliente de IA.
Qwen3-TTS-Tokenizer-12Hz
El modelo se basa en el innovador codificador de voz de múltiples libros de códigos Qwen3-TTS-Tokenizer-12Hz, logrando compresión eficiente y fuerte capacidad de representación de señales de voz:
- Preserva completamente información paralingüística (como entonación, ritmo, emoción)
- Preserva características del entorno acústico
- Logra restauración de voz de alta velocidad y alta fidelidad a través de arquitectura no DiT ligera
Arquitectura LM de múltiples libros de códigos discretos
Adopta arquitectura de modelo de lenguaje (LM) de múltiples libros de códigos discretos, logrando modelado de extremo a extremo de información completa del habla:
- Evita completamente cuellos de botella de información de soluciones LM+DiT tradicionales
- Evita errores en cascada
- Mejora significativamente la versatilidad del modelo, eficiencia de generación y techo de rendimiento
Serie de modelos
Qwen3-TTS proporciona dos escalas de parámetros para satisfacer diferentes necesidades de escenarios:
Serie de modelos 1.7B
Rendimiento definitivo, control poderoso
Qwen3-TTS-12Hz-1.7B-VoiceDesign
- Realiza diseño de voz basado en descripciones en lenguaje natural proporcionadas por el usuario
- Puede definir libremente atributos acústicos, personalidad e información de fondo
- Crea voces personalizadas únicas
Qwen3-TTS-12Hz-1.7B-CustomVoice
- Proporciona control de estilo sobre voces objetivo a través de instrucciones del usuario
- Soporta 9 voces premium cubriendo varias combinaciones de género, edad, idioma y dialecto
- Puede controlar flexiblemente voz, emoción, prosodia y otros atributos acústticos multidimensionales a través de instrucciones
Qwen3-TTS-12Hz-1.7B-Base
- Modelo base, soporta clonación rápida de voz desde audio de 3 segundos proporcionado por el usuario
- Puede usarse para ajuste fino de otros modelos
- Proporciona máxima flexibilidad y espacio de personalización
Serie de modelos 0.6B
Equilibrio entre rendimiento y eficiencia
Qwen3-TTS-12Hz-0.6B-CustomVoice
- Soporta 9 voces premium
- Reduce significativamente el consumo de recursos mientras mantiene buenos resultados
- Adecuado para implementación en dispositivos edge con recursos limitados o dispositivos móviles
Qwen3-TTS-12Hz-0.6B-Base
- Modelo base, soporta clonación rápida de voz de 3 segundos
- Menores requisitos de recursos computacionales
- Adecuado para escenarios de implementación de alta concurrencia
Características principales
Clonación rápida de voz de 3 segundos
La capacidad de clonación de voz es particularmente impresionante:
- Solo 3 segundos de audio de referencia para lograr replicación de voz de alta fidelidad zero-shot
- Las voces clonadas soportan migración cross-lingüística sin problemas
- Las voces en chino pueden hablar directamente inglés, japonés, coreano y 10 idiomas más
- Preserva simultáneamente las características de voz originales
Migración cross-lingüística/dialecto sin pérdidas
- Soporta 10 idiomas principales: chino, inglés, japonés, coreano, alemán, francés, ruso, portugués, español, italiano
- Soporta múltiples dialectos chinos: dialecto de Sichuan, dialecto de Beijing, etc.
- Restauración de alta precisión de acento y encanto
- Abre nuevas posibilidades para creación de contenido multilingüe y aplicaciones de localización
Diseño de voz en lenguaje natural
La función Voice Design permite a los usuarios personalizar voces a través de instrucciones en lenguaje natural:
- “Usa una voz femenina madura gentil y alentadora para contar historias”
- “Usa una voz masculina joven emocionada y aguda para comentar juegos”
- El modelo ajusta automáticamente entonación, emoción y ritmo
- Genera expresiones altamente personalizadas
Esta capacidad de control “lo que imaginas es lo que escuchas” es particularmente útil en la producción de audiolibros: una persona puede interpretar múltiples roles, dominando altibajos emocionales y cambios de dialecto.
Comprensión inteligente del contexto
El modelo tiene fuertes capacidades de comprensión semántica de texto:
- Puede ajustar automáticamente tono, ritmo y emoción basándose en el texto de entrada
- Se adapta a diferentes necesidades de escenarios
- Robustez significativamente mejorada al ruido del texto de entrada
- Logra expresión natural humanizada
Rendimiento
Consistencia de contenido (WER)
Excelente rendimiento en evaluación de consistencia de contenido:
- Chino: WER 0.77
- Inglés: WER 1.24
Generación de voz controlable
Qwen3-TTS-12Hz-1.7B-CustomVoice muestra rendimiento sólido en las siguientes métricas:
- APS (Audio Prosody Similarity): Alta similitud de prosodia
- DSD (Duration Similarity Distance): Control preciso de duración
- RP (Rhythm Preservation): Excelente preservación del ritmo
Diseño de voz
Qwen3-TTS-12Hz-1.7B-VoiceDesign alcanza nivel SOTA (State-of-the-Art) en tareas de diseño de voz.
Codificador de voz
Qwen-TTS-Tokenizer-12Hz muestra excelente rendimiento en las siguientes métricas:
- PESQ: Evaluación perceptual de calidad de voz
- STOI: Inteligibilidad objetiva de corto plazo
- UTMOS: Puntuación de opinión media
- SIM: Similitud
Escenarios de aplicación
Asistentes de voz inteligentes
- Proporciona interacción de voz natural para dispositivos de hogar inteligente y sistemas de vehículos
- Soporta múltiples idiomas y dialectos
- Mejora la experiencia del usuario
Creación de contenido
- Convierte rápidamente texto a voz natural
- Soporta múltiples voces y expresiones emocionales
- Adecuado para audiolibros y doblaje de video
- Una persona interpreta múltiples roles, produciendo contenido de audio de alta calidad
Educación
- Proporciona salida de voz multilingüe y multi-voz para aprendizaje de idiomas y enseñanza en línea
- Mejora la efectividad del aprendizaje
- Soporta enseñanza de dialectos
Juegos y entretenimiento
- Genera voces personalizadas para personajes de juegos
- Soporta ajuste de emoción y tono
- Mejora la inmersión en juegos
Servicio al cliente
- Proporciona interacción de voz natural y amigable para servicio al cliente inteligente
- Soporta diálogo en tiempo real
- Reduce costos de servicio al cliente
Interacción de transmisión en vivo
- Latencia ultra baja satisface necesidades de interacción en tiempo real
- Soporta transmisión en vivo multilingüe
- Mejora la experiencia de la audiencia
Ventajas técnicas
Arquitectura de extremo a extremo
- Evita cuellos de botella de información de arquitecturas en cascada tradicionales
- Reduce errores en cascada
- Mejora el rendimiento general
Ligero y eficiente
- La arquitectura no DiT mejora efectivamente la eficiencia computacional mientras garantiza restauración de alta fidelidad
- El modelo 0.6B es adecuado para implementación en dispositivos edge
- El modelo 1.7B busca rendimiento definitivo
Amigable con código abierto
- Serie completa de código abierto en GitHub y Hugging Face
- Soporta ajuste fino de parámetros completos
- Los desarrolladores pueden construir fácilmente imágenes de voz específicas de marca
Código abierto y disponibilidad
La serie completa de modelos Qwen3-TTS es completamente de código abierto, soportando:
- Uso comercial gratuito
- Implementación local
- Desarrollo secundario
- Llamadas API
Acceso
- Repositorio GitHub: https://github.com/QwenLM/Qwen3-TTS
- Biblioteca de modelos HuggingFace: https://huggingface.co/collections/Qwen/qwen3-tts
- ModelScope: https://www.modelscope.cn/collections/Qwen/Qwen3-TTS
- API Qwen: Puede experimentarse directamente a través de la API oficial
Significado técnico
El código abierto de Qwen3-TTS trae múltiples avances al campo de la síntesis de voz:
- Latencia ultra baja: Latencia de extremo a extremo de 97ms se aproxima a la velocidad de respuesta de conversación humana
- Clonación de alta fidelidad: Clonación de voz lograble con 3 segundos de audio
- Capacidad cross-lingüística: Una sola voz soporta cambio sin problemas entre 10 idiomas
- Control en lenguaje natural: Diseño de voz lograble a través de descripciones de texto
- Ecosistema de código abierto: Reduce significativamente las barreras para IA de voz en tiempo real, personalizada y multilingüe
Con el código abierto de Qwen3-TTS, las barreras para IA de voz en tiempo real, personalizada y multilingüe se han reducido significativamente. Ya sean creadores de contenido, desarrolladores o aplicaciones empresariales, todos darán la bienvenida a una nueva ola de revolución de interacción de voz.
Enlaces relacionados
- Repositorio GitHub: https://github.com/QwenLM/Qwen3-TTS
- Modelo HuggingFace: https://huggingface.co/collections/Qwen/qwen3-tts
- ModelScope: https://www.modelscope.cn/collections/Qwen/Qwen3-TTS
- Blog oficial Qwen: https://qwenlm.github.io/blog/qwen3-tts/