Skip to content
Follow me on X
ComfyUI Wiki
НовостиMicrosoft выпускает VibeVoice-ASR - модель распознавания речи с поддержкой обработки 60-минутного длинного аудио за один проход

Microsoft выпускает VibeVoice-ASR - модель распознавания речи с поддержкой обработки 60-минутного длинного аудио за один проход

21 января 2026 года Microsoft официально выпустила VibeVoice-ASR, унифицированную модель распознавания речи с 9B параметрами, способную обрабатывать до 60 минут аудио за один проход. В отличие от традиционных моделей ASR, VibeVoice-ASR не сегментирует аудио на небольшие фрагменты для обработки, тем самым избегая потери глобального контекста и путаницы в отслеживании говорящих.

Основная инновация

Способность вывода за один проход на 60 минут

VibeVoice-ASR нарушает зависимость традиционного ASR от сегментации короткого аудио, поддерживая обработку за один проход непрерывного аудио до 60 минут. Через окно контекста 64K токенов модель совместно завершает распознавание, диаризацию говорящих и генерацию временных меток в одном процессе вывода.

Традиционные системы ASR обычно требуют:

  1. Сегментировать аудио на короткие клипы
  2. Выполнять распознавание речи отдельно
  3. Выполнять диаризацию говорящих (Diarization) отдельно
  4. Выравнивать временные метки в постобработке

Этот подход приводит к потере глобальной семантики и сбоям в отслеживании говорящих между сегментами. VibeVoice-ASR решает эти проблемы через унифицированную архитектуру от начала до конца.

Структурированный вывод транскрипции

Модель может генерировать структурированный текст транскрипции, содержащий “Кто, Когда, Что”:

  • Кто: Точно идентифицирует разных говорящих
  • Когда: Точная аннотация временных меток
  • Что: Высококачественная текстовая транскрипция

Этот структурированный вывод особенно подходит для сценариев, таких как протоколы встреч, транскрипция интервью и транскрипция подкастов.

Поддержка пользовательских ключевых слов

VibeVoice-ASR поддерживает функциональность Customized Hotwords (пользовательские ключевые слова), позволяя пользователям вводить:

  • Собственные имена
  • Техническую терминологию
  • Фоновый словарь

Это значительно улучшает точность распознавания для специфичных для домена или низкочастотных слов, особенно подходя для профессиональных сценариев, таких как медицинские, юридические и технические конференции.

Техническая архитектура

Декодер на основе Qwen2

Архитектура VibeVoice-ASR основана на Qwen2 Decoder, включая:

  • 28 слоев слоев Transformer
  • 3584 скрытых измерения
  • Двойные акустические и семантические кодировщики
  • Дизайн диффузионной головы

Длинный контекст на уровне 64K токенов

Используя сверхдлинные окна контекста, модель достигает:

  • ASR (Автоматическое Распознавание Речи)
  • Diarization (Диаризация Говорящих)
  • Timestamping (Временные Метки)

Совместный вывод от начала до конца всех трех, формируя полный цикл понимания речи.

Оптимизация Flash-Attention

Основное вычисление опирается на технологию Flash-Attention, оптимизируя эффективность вывода сверхдлинных последовательностей, обеспечивая высокую производительность при обработке 60-минутного аудио.

Производительность

Комплексная оптимизация производительности

Благодаря совместному обучению VibeVoice-ASR имеет конкурентные преимущества в следующих метриках:

  • DER (Коэффициент Ошибок Диаризации): Значительно снижен
  • cpWER (Коэффициент Ошибок Символов с временными метками): Превосходит традиционные методы

Стандартизированная среда развертывания

Поддерживает NVIDIA PyTorch Container (проверенные версии 24.07 до 25.12), обеспечивая стабильную производительность в различных аппаратных средах.

Сценарии применения

VibeVoice-ASR особенно подходит для:

Протоколы встреч

  • Автоматически генерирует полные протоколы встреч
  • Точно маркирует каждого говорящего
  • Точные временные метки для легкого просмотра

Транскрипция интервью

  • Полная транскрипция длинных интервью
  • Разделение говорящих в многопользовательских разговорах
  • Точное распознавание профессиональной терминологии

Транскрипция подкастов

  • Обработка за один проход длинного аудио контента
  • Поддерживает глобальную семантическую согласованность
  • Автоматически генерирует временную шкалу

Профессиональные области

  • Медицина: Обсуждения случаев, хирургические записи
  • Юриспруденция: Судебные записи, транскрипция показаний
  • Техника: Технические конференции, учебные курсы

Открытый исходный код и доступность

VibeVoice-ASR открыт на Hugging Face с тестовыми демо, используя лицензию открытого исходного кода MIT, поддерживая:

  • Бесплатное коммерческое использование
  • Локальное развертывание
  • Вторичную разработку

Доступ

Серия VibeVoice

VibeVoice-ASR является частью семейства VibeVoice, которое также включает:

  • VibeVoice-TTS: Модель преобразования текста в речь
  • VibeVoice-Realtime-0.5B: Модель синтеза речи в реальном времени (всего 0.5B параметров, время отклика 300мс)

Все модели используют унифицированную техническую структуру:

  • Непрерывный речевой токенизатор (7.5 Гц)
  • Структура диффузии следующего токена
  • LLM рассуждение для текста и диалога
  • Диффузионная голова генерирует акустические детали

Техническое значение

Выпуск VibeVoice-ASR знаменует важный прогресс в технологии распознавания речи:

  1. Унифицированная архитектура: Интегрирует несколько независимых задач в одну модель
  2. Обработка длинного контекста: Нарушает ограничения длины традиционного ASR
  3. Оптимизация от начала до конца: Избегает потери информации при многоэтапной обработке
  4. Профессиональная поддержка: Адаптируется к различным вертикальным областям через механизм ключевых слов

Это обеспечивает более мощное и гибкое решение для распознавания речи в профессиональных сценариях.

Связанные ссылки