Skip to content
Follow me on X
ComfyUI Wiki
NoticiasMicrosoft lanza VibeVoice-ASR - Modelo de reconocimiento de voz compatible con procesamiento de audio largo de 60 minutos en un solo paso

Microsoft lanza VibeVoice-ASR - Modelo de reconocimiento de voz compatible con procesamiento de audio largo de 60 minutos en un solo paso

El 21 de enero de 2026, Microsoft lanzó oficialmente VibeVoice-ASR, un modelo unificado de reconocimiento de voz con 9B parámetros capaz de procesar hasta 60 minutos de audio en un solo paso. A diferencia de los modelos ASR tradicionales, VibeVoice-ASR no segmenta el audio en pequeños fragmentos para procesamiento, evitando así la pérdida de contexto global y la confusión en el seguimiento de hablantes.

Innovación principal

Capacidad de inferencia de un solo paso de 60 minutos

VibeVoice-ASR rompe con la dependencia del ASR tradicional en la segmentación de audio corto, soportando procesamiento de un solo paso de audio continuo de hasta 60 minutos. A través de una ventana de contexto de 64K tokens, el modelo completa conjuntamente reconocimiento, diarización de hablantes y generación de marcas de tiempo en un solo proceso de inferencia.

Los sistemas ASR tradicionales típicamente requieren:

  1. Segmentar el audio en clips cortos
  2. Realizar reconocimiento de voz por separado
  3. Ejecutar diarización de hablantes (Diarization) por separado
  4. Alinear marcas de tiempo en post-procesamiento

Este enfoque conduce a pérdida semántica global y fallas en el seguimiento de hablantes entre segmentos. VibeVoice-ASR resuelve estos problemas a través de una arquitectura unificada de extremo a extremo.

Salida de transcripción estructurada

El modelo puede generar texto de transcripción estructurado que contiene “Quién, Cuándo, Qué”:

  • Quién: Identifica con precisión diferentes hablantes
  • Cuándo: Anotación precisa de marcas de tiempo
  • Qué: Transcripción de texto de alta calidad

Esta salida estructurada es particularmente adecuada para escenarios como actas de reuniones, transcripción de entrevistas y transcripción de podcasts.

Soporte de palabras clave personalizadas

VibeVoice-ASR soporta la funcionalidad Customized Hotwords (palabras clave personalizadas), permitiendo a los usuarios inyectar:

  • Nombres propios
  • Terminología técnica
  • Vocabulario de fondo

Esto mejora significativamente la precisión de reconocimiento para palabras específicas de dominio o de baja frecuencia, siendo particularmente adecuado para escenarios profesionales como conferencias médicas, legales y técnicas.

Arquitectura técnica

Decodificador basado en Qwen2

La arquitectura de VibeVoice-ASR se basa en Qwen2 Decoder, incluyendo:

  • 28 capas de capas Transformer
  • 3584 dimensiones ocultas
  • Codificadores duales acústico y semántico
  • Diseño de cabeza de difusión

Contexto largo a nivel de 64K tokens

Utilizando ventanas de contexto ultra largas, el modelo logra:

  • ASR (Reconocimiento Automático de Voz)
  • Diarization (Diarización de Hablantes)
  • Timestamping (Marcas de Tiempo)

Salida conjunta de extremo a extremo de los tres, formando un bucle completo de comprensión de voz.

Optimización Flash-Attention

El cálculo central se basa en la tecnología Flash-Attention, optimizando la eficiencia de inferencia de secuencias ultra largas, asegurando alto rendimiento al procesar audio de 60 minutos.

Rendimiento

Optimización de rendimiento integral

A través del entrenamiento conjunto, VibeVoice-ASR tiene ventajas competitivas en las siguientes métricas:

  • DER (Tasa de Error de Diarización): Significativamente reducida
  • cpWER (Tasa de Error de Caracteres con marcas de tiempo): Superior a métodos tradicionales

Entorno de implementación estandarizado

Soporta NVIDIA PyTorch Container (versiones verificadas 24.07 a 25.12), asegurando rendimiento estable en diferentes entornos de hardware.

Escenarios de aplicación

VibeVoice-ASR es particularmente adecuado para:

Actas de reuniones

  • Genera automáticamente actas de reuniones completas
  • Etiqueta con precisión a cada hablante
  • Marcas de tiempo precisas para fácil revisión

Transcripción de entrevistas

  • Transcripción completa de entrevistas largas
  • Separación de hablantes en conversaciones multipersonales
  • Reconocimiento preciso de terminología profesional

Transcripción de podcasts

  • Procesamiento de un solo paso de contenido de audio largo
  • Mantiene coherencia semántica global
  • Genera automáticamente línea de tiempo

Dominios profesionales

  • Médico: Discusiones de casos, registros quirúrgicos
  • Legal: Registros judiciales, transcripción de testimonios
  • Técnico: Conferencias técnicas, cursos de capacitación

Código abierto y disponibilidad

VibeVoice-ASR es de código abierto en Hugging Face con demos de prueba, usando licencia de código abierto MIT, soportando:

  • Uso comercial gratuito
  • Implementación local
  • Desarrollo secundario

Acceso

Serie VibeVoice

VibeVoice-ASR es parte de la familia VibeVoice, que también incluye:

  • VibeVoice-TTS: Modelo de texto a voz
  • VibeVoice-Realtime-0.5B: Modelo de síntesis de voz en tiempo real (solo 0.5B parámetros, tiempo de respuesta de 300ms)

Todos los modelos usan un marco técnico unificado:

  • Tokenizador de voz continuo (7.5 Hz)
  • Marco de difusión next-token
  • Razonamiento LLM para texto y diálogo
  • Cabeza de difusión genera detalles acústicos

Significado técnico

El lanzamiento de VibeVoice-ASR marca un progreso importante en la tecnología de reconocimiento de voz:

  1. Arquitectura unificada: Integra múltiples tareas independientes en un solo modelo
  2. Procesamiento de contexto largo: Rompe las limitaciones de longitud del ASR tradicional
  3. Optimización de extremo a extremo: Evita pérdida de información del procesamiento multi-etapa
  4. Soporte profesional: Se adapta a varios dominios verticales a través del mecanismo de palabras clave

Esto proporciona una solución más poderosa y flexible para el reconocimiento de voz en escenarios profesionales.

Enlaces relacionados