OpenMOSS lanza MOVA - modelo de generación sincronizada de video y audio de código abierto
29/01/2026
Microsoft lanza VibeVoice-ASR - Modelo de reconocimiento de voz compatible con procesamiento de audio largo de 60 minutos en un solo paso
El 21 de enero de 2026, Microsoft lanzó oficialmente VibeVoice-ASR, un modelo unificado de reconocimiento de voz con 9B parámetros capaz de procesar hasta 60 minutos de audio en un solo paso. A diferencia de los modelos ASR tradicionales, VibeVoice-ASR no segmenta el audio en pequeños fragmentos para procesamiento, evitando así la pérdida de contexto global y la confusión en el seguimiento de hablantes.
Innovación principal
Capacidad de inferencia de un solo paso de 60 minutos
VibeVoice-ASR rompe con la dependencia del ASR tradicional en la segmentación de audio corto, soportando procesamiento de un solo paso de audio continuo de hasta 60 minutos. A través de una ventana de contexto de 64K tokens, el modelo completa conjuntamente reconocimiento, diarización de hablantes y generación de marcas de tiempo en un solo proceso de inferencia.
Los sistemas ASR tradicionales típicamente requieren:
- Segmentar el audio en clips cortos
- Realizar reconocimiento de voz por separado
- Ejecutar diarización de hablantes (Diarization) por separado
- Alinear marcas de tiempo en post-procesamiento
Este enfoque conduce a pérdida semántica global y fallas en el seguimiento de hablantes entre segmentos. VibeVoice-ASR resuelve estos problemas a través de una arquitectura unificada de extremo a extremo.
Salida de transcripción estructurada
El modelo puede generar texto de transcripción estructurado que contiene “Quién, Cuándo, Qué”:
- Quién: Identifica con precisión diferentes hablantes
- Cuándo: Anotación precisa de marcas de tiempo
- Qué: Transcripción de texto de alta calidad
Esta salida estructurada es particularmente adecuada para escenarios como actas de reuniones, transcripción de entrevistas y transcripción de podcasts.
Soporte de palabras clave personalizadas
VibeVoice-ASR soporta la funcionalidad Customized Hotwords (palabras clave personalizadas), permitiendo a los usuarios inyectar:
- Nombres propios
- Terminología técnica
- Vocabulario de fondo
Esto mejora significativamente la precisión de reconocimiento para palabras específicas de dominio o de baja frecuencia, siendo particularmente adecuado para escenarios profesionales como conferencias médicas, legales y técnicas.
Arquitectura técnica
Decodificador basado en Qwen2
La arquitectura de VibeVoice-ASR se basa en Qwen2 Decoder, incluyendo:
- 28 capas de capas Transformer
- 3584 dimensiones ocultas
- Codificadores duales acústico y semántico
- Diseño de cabeza de difusión
Contexto largo a nivel de 64K tokens
Utilizando ventanas de contexto ultra largas, el modelo logra:
- ASR (Reconocimiento Automático de Voz)
- Diarization (Diarización de Hablantes)
- Timestamping (Marcas de Tiempo)
Salida conjunta de extremo a extremo de los tres, formando un bucle completo de comprensión de voz.
Optimización Flash-Attention
El cálculo central se basa en la tecnología Flash-Attention, optimizando la eficiencia de inferencia de secuencias ultra largas, asegurando alto rendimiento al procesar audio de 60 minutos.
Rendimiento
Optimización de rendimiento integral
A través del entrenamiento conjunto, VibeVoice-ASR tiene ventajas competitivas en las siguientes métricas:
- DER (Tasa de Error de Diarización): Significativamente reducida
- cpWER (Tasa de Error de Caracteres con marcas de tiempo): Superior a métodos tradicionales
Entorno de implementación estandarizado
Soporta NVIDIA PyTorch Container (versiones verificadas 24.07 a 25.12), asegurando rendimiento estable en diferentes entornos de hardware.
Escenarios de aplicación
VibeVoice-ASR es particularmente adecuado para:
Actas de reuniones
- Genera automáticamente actas de reuniones completas
- Etiqueta con precisión a cada hablante
- Marcas de tiempo precisas para fácil revisión
Transcripción de entrevistas
- Transcripción completa de entrevistas largas
- Separación de hablantes en conversaciones multipersonales
- Reconocimiento preciso de terminología profesional
Transcripción de podcasts
- Procesamiento de un solo paso de contenido de audio largo
- Mantiene coherencia semántica global
- Genera automáticamente línea de tiempo
Dominios profesionales
- Médico: Discusiones de casos, registros quirúrgicos
- Legal: Registros judiciales, transcripción de testimonios
- Técnico: Conferencias técnicas, cursos de capacitación
Código abierto y disponibilidad
VibeVoice-ASR es de código abierto en Hugging Face con demos de prueba, usando licencia de código abierto MIT, soportando:
- Uso comercial gratuito
- Implementación local
- Desarrollo secundario
Acceso
- HuggingFace: https://huggingface.co/microsoft/VibeVoice-ASR
- GitHub: https://github.com/microsoft/VibeVoice
- Informe técnico: https://www.arxiv.org/pdf/2601.18184
Serie VibeVoice
VibeVoice-ASR es parte de la familia VibeVoice, que también incluye:
- VibeVoice-TTS: Modelo de texto a voz
- VibeVoice-Realtime-0.5B: Modelo de síntesis de voz en tiempo real (solo 0.5B parámetros, tiempo de respuesta de 300ms)
Todos los modelos usan un marco técnico unificado:
- Tokenizador de voz continuo (7.5 Hz)
- Marco de difusión next-token
- Razonamiento LLM para texto y diálogo
- Cabeza de difusión genera detalles acústicos
Significado técnico
El lanzamiento de VibeVoice-ASR marca un progreso importante en la tecnología de reconocimiento de voz:
- Arquitectura unificada: Integra múltiples tareas independientes en un solo modelo
- Procesamiento de contexto largo: Rompe las limitaciones de longitud del ASR tradicional
- Optimización de extremo a extremo: Evita pérdida de información del procesamiento multi-etapa
- Soporte profesional: Se adapta a varios dominios verticales a través del mecanismo de palabras clave
Esto proporciona una solución más poderosa y flexible para el reconocimiento de voz en escenarios profesionales.
Enlaces relacionados
- Modelo HuggingFace: https://huggingface.co/microsoft/VibeVoice-ASR
- Repositorio GitHub: https://github.com/microsoft/VibeVoice
- Artículo técnico: https://www.arxiv.org/pdf/2601.18184