Microsoft lanza VibeVoice-ASR - Modelo de reconocimiento de voz compatible con procesamiento de audio largo de 60 minutos en un solo paso

El 21 de enero de 2026, Microsoft lanzó oficialmente VibeVoice-ASR, un modelo unificado de reconocimiento de voz con 9B parámetros capaz de procesar hasta 60 minutos de audio en un solo paso. A diferencia de los modelos ASR tradicionales, VibeVoice-ASR no segmenta el audio en pequeños fragmentos para procesamiento, evitando así la pérdida de contexto global y la confusión en el seguimiento de hablantes.

Innovación principal

Capacidad de inferencia de un solo paso de 60 minutos

VibeVoice-ASR rompe con la dependencia del ASR tradicional en la segmentación de audio corto, soportando procesamiento de un solo paso de audio continuo de hasta 60 minutos. A través de una ventana de contexto de 64K tokens, el modelo completa conjuntamente reconocimiento, diarización de hablantes y generación de marcas de tiempo en un solo proceso de inferencia.

Los sistemas ASR tradicionales típicamente requieren:

Segmentar el audio en clips cortos
Realizar reconocimiento de voz por separado
Ejecutar diarización de hablantes (Diarization) por separado
Alinear marcas de tiempo en post-procesamiento

Este enfoque conduce a pérdida semántica global y fallas en el seguimiento de hablantes entre segmentos. VibeVoice-ASR resuelve estos problemas a través de una arquitectura unificada de extremo a extremo.

Salida de transcripción estructurada

El modelo puede generar texto de transcripción estructurado que contiene "Quién, Cuándo, Qué":

Quién: Identifica con precisión diferentes hablantes
Cuándo: Anotación precisa de marcas de tiempo
Qué: Transcripción de texto de alta calidad

Esta salida estructurada es particularmente adecuada para escenarios como actas de reuniones, transcripción de entrevistas y transcripción de podcasts.

Soporte de palabras clave personalizadas

VibeVoice-ASR soporta la funcionalidad Customized Hotwords (palabras clave personalizadas), permitiendo a los usuarios inyectar:

Nombres propios
Terminología técnica
Vocabulario de fondo

Esto mejora significativamente la precisión de reconocimiento para palabras específicas de dominio o de baja frecuencia, siendo particularmente adecuado para escenarios profesionales como conferencias médicas, legales y técnicas.

Arquitectura técnica

Decodificador basado en Qwen2

La arquitectura de VibeVoice-ASR se basa en Qwen2 Decoder, incluyendo:

28 capas de capas Transformer
3584 dimensiones ocultas
Codificadores duales acústico y semántico
Diseño de cabeza de difusión

Contexto largo a nivel de 64K tokens

Utilizando ventanas de contexto ultra largas, el modelo logra:

ASR (Reconocimiento Automático de Voz)
Diarization (Diarización de Hablantes)
Timestamping (Marcas de Tiempo)

Salida conjunta de extremo a extremo de los tres, formando un bucle completo de comprensión de voz.

Optimización Flash-Attention

El cálculo central se basa en la tecnología Flash-Attention, optimizando la eficiencia de inferencia de secuencias ultra largas, asegurando alto rendimiento al procesar audio de 60 minutos.

Rendimiento

Optimización de rendimiento integral

A través del entrenamiento conjunto, VibeVoice-ASR tiene ventajas competitivas en las siguientes métricas:

DER (Tasa de Error de Diarización): Significativamente reducida
cpWER (Tasa de Error de Caracteres con marcas de tiempo): Superior a métodos tradicionales

Entorno de implementación estandarizado

Soporta NVIDIA PyTorch Container (versiones verificadas 24.07 a 25.12), asegurando rendimiento estable en diferentes entornos de hardware.

Escenarios de aplicación

VibeVoice-ASR es particularmente adecuado para:

Actas de reuniones

Genera automáticamente actas de reuniones completas
Etiqueta con precisión a cada hablante
Marcas de tiempo precisas para fácil revisión

Transcripción de entrevistas

Transcripción completa de entrevistas largas
Separación de hablantes en conversaciones multipersonales
Reconocimiento preciso de terminología profesional

Transcripción de podcasts

Procesamiento de un solo paso de contenido de audio largo
Mantiene coherencia semántica global
Genera automáticamente línea de tiempo

Dominios profesionales

Médico: Discusiones de casos, registros quirúrgicos
Legal: Registros judiciales, transcripción de testimonios
Técnico: Conferencias técnicas, cursos de capacitación

Código abierto y disponibilidad

VibeVoice-ASR es de código abierto en Hugging Face con demos de prueba, usando licencia de código abierto MIT, soportando:

Uso comercial gratuito
Implementación local
Desarrollo secundario

Acceso

HuggingFace: https://huggingface.co/microsoft/VibeVoice-ASR
GitHub: https://github.com/microsoft/VibeVoice
Informe técnico: https://www.arxiv.org/pdf/2601.18184

Serie VibeVoice

VibeVoice-ASR es parte de la familia VibeVoice, que también incluye:

VibeVoice-TTS: Modelo de texto a voz
VibeVoice-Realtime-0.5B: Modelo de síntesis de voz en tiempo real (solo 0.5B parámetros, tiempo de respuesta de 300ms)

Todos los modelos usan un marco técnico unificado:

Tokenizador de voz continuo (7.5 Hz)
Marco de difusión next-token
Razonamiento LLM para texto y diálogo
Cabeza de difusión genera detalles acústicos

Significado técnico

El lanzamiento de VibeVoice-ASR marca un progreso importante en la tecnología de reconocimiento de voz:

Arquitectura unificada: Integra múltiples tareas independientes en un solo modelo
Procesamiento de contexto largo: Rompe las limitaciones de longitud del ASR tradicional
Optimización de extremo a extremo: Evita pérdida de información del procesamiento multi-etapa
Soporte profesional: Se adapta a varios dominios verticales a través del mecanismo de palabras clave

Esto proporciona una solución más poderosa y flexible para el reconocimiento de voz en escenarios profesionales.

Enlaces relacionados

Modelo HuggingFace: https://huggingface.co/microsoft/VibeVoice-ASR
Repositorio GitHub: https://github.com/microsoft/VibeVoice
Artículo técnico: https://www.arxiv.org/pdf/2601.18184