Skip to content
Follow me on X
ComfyUI Wiki
ActualitésMicrosoft lance VibeVoice-ASR - Modèle de reconnaissance vocale compatible avec le traitement audio long de 60 minutes en un seul passage
Aucun article pour le moment. Revenez plus tard !

Microsoft lance VibeVoice-ASR - Modèle de reconnaissance vocale compatible avec le traitement audio long de 60 minutes en un seul passage

Le 21 janvier 2026, Microsoft a officiellement lancé VibeVoice-ASR, un modèle unifié de reconnaissance vocale avec 9B paramètres capable de traiter jusqu’à 60 minutes d’audio en un seul passage. Contrairement aux modèles ASR traditionnels, VibeVoice-ASR ne segmente pas l’audio en petits fragments pour le traitement, évitant ainsi la perte de contexte global et la confusion dans le suivi des locuteurs.

Innovation principale

Capacité d’inférence en un seul passage de 60 minutes

VibeVoice-ASR rompt avec la dépendance de l’ASR traditionnel à la segmentation audio courte, prenant en charge le traitement en un seul passage d’audio continu jusqu’à 60 minutes. Grâce à une fenêtre de contexte de 64K tokens, le modèle complète conjointement la reconnaissance, la diarisation des locuteurs et la génération d’horodatages en un seul processus d’inférence.

Les systèmes ASR traditionnels nécessitent généralement :

  1. Segmenter l’audio en clips courts
  2. Effectuer la reconnaissance vocale séparément
  3. Exécuter la diarisation des locuteurs (Diarization) séparément
  4. Aligner les horodatages en post-traitement

Cette approche conduit à une perte sémantique globale et à des échecs de suivi des locuteurs entre segments. VibeVoice-ASR résout ces problèmes grâce à une architecture unifiée de bout en bout.

Sortie de transcription structurée

Le modèle peut générer du texte de transcription structuré contenant “Qui, Quand, Quoi” :

  • Qui : Identifie avec précision différents locuteurs
  • Quand : Annotation précise d’horodatages
  • Quoi : Transcription de texte de haute qualité

Cette sortie structurée est particulièrement adaptée aux scénarios comme les procès-verbaux de réunions, la transcription d’entretiens et la transcription de podcasts.

Support de mots-clés personnalisés

VibeVoice-ASR prend en charge la fonctionnalité Customized Hotwords (mots-clés personnalisés), permettant aux utilisateurs d’injecter :

  • Noms propres
  • Terminologie technique
  • Vocabulaire de fond

Cela améliore significativement la précision de reconnaissance pour les mots spécifiques au domaine ou de basse fréquence, étant particulièrement adapté aux scénarios professionnels comme les conférences médicales, juridiques et techniques.

Architecture technique

Décodeur basé sur Qwen2

L’architecture de VibeVoice-ASR est basée sur Qwen2 Decoder, incluant :

  • 28 couches de couches Transformer
  • 3584 dimensions cachées
  • Encodeurs duaux acoustique et sémantique
  • Conception de tête de diffusion

Contexte long au niveau de 64K tokens

Utilisant des fenêtres de contexte ultra-longues, le modèle réalise :

  • ASR (Reconnaissance Automatique de la Parole)
  • Diarization (Diarisation des Locuteurs)
  • Timestamping (Horodatages)

Sortie conjointe de bout en bout des trois, formant une boucle complète de compréhension vocale.

Optimisation Flash-Attention

Le calcul central s’appuie sur la technologie Flash-Attention, optimisant l’efficacité d’inférence des séquences ultra-longues, assurant une haute performance lors du traitement d’audio de 60 minutes.

Performance

Optimisation de performance globale

Grâce à l’entraînement conjoint, VibeVoice-ASR a des avantages compétitifs dans les métriques suivantes :

  • DER (Taux d’Erreur de Diarisation) : Significativement réduit
  • cpWER (Taux d’Erreur de Caractères avec horodatages) : Supérieur aux méthodes traditionnelles

Environnement de déploiement standardisé

Prend en charge NVIDIA PyTorch Container (versions vérifiées 24.07 à 25.12), assurant une performance stable dans différents environnements matériels.

Scénarios d’application

VibeVoice-ASR est particulièrement adapté pour :

Procès-verbaux de réunions

  • Génère automatiquement des procès-verbaux de réunions complets
  • Étiquette avec précision chaque locuteur
  • Horodatages précis pour une révision facile

Transcription d’entretiens

  • Transcription complète d’entretiens longs
  • Séparation des locuteurs dans les conversations multipersonnes
  • Reconnaissance précise de terminologie professionnelle

Transcription de podcasts

  • Traitement en un seul passage de contenu audio long
  • Maintient la cohérence sémantique globale
  • Génère automatiquement la chronologie

Domaines professionnels

  • Médical : Discussions de cas, enregistrements chirurgicaux
  • Juridique : Enregistrements judiciaires, transcription de témoignages
  • Technique : Conférences techniques, cours de formation

Open source et disponibilité

VibeVoice-ASR est open source sur Hugging Face avec des démos de test, utilisant la licence open source MIT, prenant en charge :

  • Utilisation commerciale gratuite
  • Déploiement local
  • Développement secondaire

Accès

Série VibeVoice

VibeVoice-ASR fait partie de la famille VibeVoice, qui comprend également :

  • VibeVoice-TTS : Modèle de texte à parole
  • VibeVoice-Realtime-0.5B : Modèle de synthèse vocale en temps réel (seulement 0.5B paramètres, temps de réponse de 300ms)

Tous les modèles utilisent un cadre technique unifié :

  • Tokenizer vocal continu (7.5 Hz)
  • Cadre de diffusion next-token
  • Raisonnement LLM pour texte et dialogue
  • Tête de diffusion génère des détails acoustiques

Signification technique

Le lancement de VibeVoice-ASR marque un progrès important dans la technologie de reconnaissance vocale :

  1. Architecture unifiée : Intègre plusieurs tâches indépendantes en un seul modèle
  2. Traitement de contexte long : Rompt les limitations de longueur de l’ASR traditionnel
  3. Optimisation de bout en bout : Évite la perte d’information du traitement multi-étapes
  4. Support professionnel : S’adapte à divers domaines verticaux via le mécanisme de mots-clés

Cela fournit une solution plus puissante et flexible pour la reconnaissance vocale dans les scénarios professionnels.

Liens connexes