Microsoft lance VibeVoice-ASR - Modèle de reconnaissance vocale compatible avec le traitement audio long de 60 minutes en un seul passage

Le 21 janvier 2026, Microsoft a officiellement lancé VibeVoice-ASR, un modèle unifié de reconnaissance vocale avec 9B paramètres capable de traiter jusqu'à 60 minutes d'audio en un seul passage. Contrairement aux modèles ASR traditionnels, VibeVoice-ASR ne segmente pas l'audio en petits fragments pour le traitement, évitant ainsi la perte de contexte global et la confusion dans le suivi des locuteurs.

Innovation principale

Capacité d'inférence en un seul passage de 60 minutes

VibeVoice-ASR rompt avec la dépendance de l'ASR traditionnel à la segmentation audio courte, prenant en charge le traitement en un seul passage d'audio continu jusqu'à 60 minutes. Grâce à une fenêtre de contexte de 64K tokens, le modèle complète conjointement la reconnaissance, la diarisation des locuteurs et la génération d'horodatages en un seul processus d'inférence.

Les systèmes ASR traditionnels nécessitent généralement :

Segmenter l'audio en clips courts
Effectuer la reconnaissance vocale séparément
Exécuter la diarisation des locuteurs (Diarization) séparément
Aligner les horodatages en post-traitement

Cette approche conduit à une perte sémantique globale et à des échecs de suivi des locuteurs entre segments. VibeVoice-ASR résout ces problèmes grâce à une architecture unifiée de bout en bout.

Sortie de transcription structurée

Le modèle peut générer du texte de transcription structuré contenant "Qui, Quand, Quoi" :

Qui : Identifie avec précision différents locuteurs
Quand : Annotation précise d'horodatages
Quoi : Transcription de texte de haute qualité

Cette sortie structurée est particulièrement adaptée aux scénarios comme les procès-verbaux de réunions, la transcription d'entretiens et la transcription de podcasts.

Support de mots-clés personnalisés

VibeVoice-ASR prend en charge la fonctionnalité Customized Hotwords (mots-clés personnalisés), permettant aux utilisateurs d'injecter :

Noms propres
Terminologie technique
Vocabulaire de fond

Cela améliore significativement la précision de reconnaissance pour les mots spécifiques au domaine ou de basse fréquence, étant particulièrement adapté aux scénarios professionnels comme les conférences médicales, juridiques et techniques.

Architecture technique

Décodeur basé sur Qwen2

L'architecture de VibeVoice-ASR est basée sur Qwen2 Decoder, incluant :

28 couches de couches Transformer
3584 dimensions cachées
Encodeurs duaux acoustique et sémantique
Conception de tête de diffusion

Contexte long au niveau de 64K tokens

Utilisant des fenêtres de contexte ultra-longues, le modèle réalise :

ASR (Reconnaissance Automatique de la Parole)
Diarization (Diarisation des Locuteurs)
Timestamping (Horodatages)

Sortie conjointe de bout en bout des trois, formant une boucle complète de compréhension vocale.

Optimisation Flash-Attention

Le calcul central s'appuie sur la technologie Flash-Attention, optimisant l'efficacité d'inférence des séquences ultra-longues, assurant une haute performance lors du traitement d'audio de 60 minutes.

Performance

Optimisation de performance globale

Grâce à l'entraînement conjoint, VibeVoice-ASR a des avantages compétitifs dans les métriques suivantes :

DER (Taux d'Erreur de Diarisation) : Significativement réduit
cpWER (Taux d'Erreur de Caractères avec horodatages) : Supérieur aux méthodes traditionnelles

Environnement de déploiement standardisé

Prend en charge NVIDIA PyTorch Container (versions vérifiées 24.07 à 25.12), assurant une performance stable dans différents environnements matériels.

Scénarios d'application

VibeVoice-ASR est particulièrement adapté pour :

Procès-verbaux de réunions

Génère automatiquement des procès-verbaux de réunions complets
Étiquette avec précision chaque locuteur
Horodatages précis pour une révision facile

Transcription d'entretiens

Transcription complète d'entretiens longs
Séparation des locuteurs dans les conversations multipersonnes
Reconnaissance précise de terminologie professionnelle

Transcription de podcasts

Traitement en un seul passage de contenu audio long
Maintient la cohérence sémantique globale
Génère automatiquement la chronologie

Domaines professionnels

Médical : Discussions de cas, enregistrements chirurgicaux
Juridique : Enregistrements judiciaires, transcription de témoignages
Technique : Conférences techniques, cours de formation

Open source et disponibilité

VibeVoice-ASR est open source sur Hugging Face avec des démos de test, utilisant la licence open source MIT, prenant en charge :

Utilisation commerciale gratuite
Déploiement local
Développement secondaire

Accès

HuggingFace : https://huggingface.co/microsoft/VibeVoice-ASR
GitHub : https://github.com/microsoft/VibeVoice
Rapport technique : https://www.arxiv.org/pdf/2601.18184

Série VibeVoice

VibeVoice-ASR fait partie de la famille VibeVoice, qui comprend également :

VibeVoice-TTS : Modèle de texte à parole
VibeVoice-Realtime-0.5B : Modèle de synthèse vocale en temps réel (seulement 0.5B paramètres, temps de réponse de 300ms)

Tous les modèles utilisent un cadre technique unifié :

Tokenizer vocal continu (7.5 Hz)
Cadre de diffusion next-token
Raisonnement LLM pour texte et dialogue
Tête de diffusion génère des détails acoustiques

Signification technique

Le lancement de VibeVoice-ASR marque un progrès important dans la technologie de reconnaissance vocale :

Architecture unifiée : Intègre plusieurs tâches indépendantes en un seul modèle
Traitement de contexte long : Rompt les limitations de longueur de l'ASR traditionnel
Optimisation de bout en bout : Évite la perte d'information du traitement multi-étapes
Support professionnel : S'adapte à divers domaines verticaux via le mécanisme de mots-clés

Cela fournit une solution plus puissante et flexible pour la reconnaissance vocale dans les scénarios professionnels.

Liens connexes

Modèle HuggingFace : https://huggingface.co/microsoft/VibeVoice-ASR
Dépôt GitHub : https://github.com/microsoft/VibeVoice
Article technique : https://www.arxiv.org/pdf/2601.18184