Microsoft выпускает VibeVoice-ASR - модель распознавания речи с поддержкой обработки 60-минутного длинного аудио за один проход

21 января 2026 года Microsoft официально выпустила VibeVoice-ASR, унифицированную модель распознавания речи с 9B параметрами, способную обрабатывать до 60 минут аудио за один проход. В отличие от традиционных моделей ASR, VibeVoice-ASR не сегментирует аудио на небольшие фрагменты для обработки, тем самым избегая потери глобального контекста и путаницы в отслеживании говорящих.

Основная инновация

Способность вывода за один проход на 60 минут

VibeVoice-ASR нарушает зависимость традиционного ASR от сегментации короткого аудио, поддерживая обработку за один проход непрерывного аудио до 60 минут. Через окно контекста 64K токенов модель совместно завершает распознавание, диаризацию говорящих и генерацию временных меток в одном процессе вывода.

Традиционные системы ASR обычно требуют:

Сегментировать аудио на короткие клипы
Выполнять распознавание речи отдельно
Выполнять диаризацию говорящих (Diarization) отдельно
Выравнивать временные метки в постобработке

Этот подход приводит к потере глобальной семантики и сбоям в отслеживании говорящих между сегментами. VibeVoice-ASR решает эти проблемы через унифицированную архитектуру от начала до конца.

Структурированный вывод транскрипции

Модель может генерировать структурированный текст транскрипции, содержащий "Кто, Когда, Что":

Кто: Точно идентифицирует разных говорящих
Когда: Точная аннотация временных меток
Что: Высококачественная текстовая транскрипция

Этот структурированный вывод особенно подходит для сценариев, таких как протоколы встреч, транскрипция интервью и транскрипция подкастов.

Поддержка пользовательских ключевых слов

VibeVoice-ASR поддерживает функциональность Customized Hotwords (пользовательские ключевые слова), позволяя пользователям вводить:

Собственные имена
Техническую терминологию
Фоновый словарь

Это значительно улучшает точность распознавания для специфичных для домена или низкочастотных слов, особенно подходя для профессиональных сценариев, таких как медицинские, юридические и технические конференции.

Техническая архитектура

Декодер на основе Qwen2

Архитектура VibeVoice-ASR основана на Qwen2 Decoder, включая:

28 слоев слоев Transformer
3584 скрытых измерения
Двойные акустические и семантические кодировщики
Дизайн диффузионной головы

Длинный контекст на уровне 64K токенов

Используя сверхдлинные окна контекста, модель достигает:

ASR (Автоматическое Распознавание Речи)
Diarization (Диаризация Говорящих)
Timestamping (Временные Метки)

Совместный вывод от начала до конца всех трех, формируя полный цикл понимания речи.

Оптимизация Flash-Attention

Основное вычисление опирается на технологию Flash-Attention, оптимизируя эффективность вывода сверхдлинных последовательностей, обеспечивая высокую производительность при обработке 60-минутного аудио.

Производительность

Комплексная оптимизация производительности

Благодаря совместному обучению VibeVoice-ASR имеет конкурентные преимущества в следующих метриках:

DER (Коэффициент Ошибок Диаризации): Значительно снижен
cpWER (Коэффициент Ошибок Символов с временными метками): Превосходит традиционные методы

Стандартизированная среда развертывания

Поддерживает NVIDIA PyTorch Container (проверенные версии 24.07 до 25.12), обеспечивая стабильную производительность в различных аппаратных средах.

Сценарии применения

VibeVoice-ASR особенно подходит для:

Протоколы встреч

Автоматически генерирует полные протоколы встреч
Точно маркирует каждого говорящего
Точные временные метки для легкого просмотра

Транскрипция интервью

Полная транскрипция длинных интервью
Разделение говорящих в многопользовательских разговорах
Точное распознавание профессиональной терминологии

Транскрипция подкастов

Обработка за один проход длинного аудио контента
Поддерживает глобальную семантическую согласованность
Автоматически генерирует временную шкалу

Профессиональные области

Медицина: Обсуждения случаев, хирургические записи
Юриспруденция: Судебные записи, транскрипция показаний
Техника: Технические конференции, учебные курсы

Открытый исходный код и доступность

VibeVoice-ASR открыт на Hugging Face с тестовыми демо, используя лицензию открытого исходного кода MIT, поддерживая:

Бесплатное коммерческое использование
Локальное развертывание
Вторичную разработку

Доступ

HuggingFace: https://huggingface.co/microsoft/VibeVoice-ASR
GitHub: https://github.com/microsoft/VibeVoice
Технический отчет: https://www.arxiv.org/pdf/2601.18184

Серия VibeVoice

VibeVoice-ASR является частью семейства VibeVoice, которое также включает:

VibeVoice-TTS: Модель преобразования текста в речь
VibeVoice-Realtime-0.5B: Модель синтеза речи в реальном времени (всего 0.5B параметров, время отклика 300мс)

Все модели используют унифицированную техническую структуру:

Непрерывный речевой токенизатор (7.5 Гц)
Структура диффузии следующего токена
LLM рассуждение для текста и диалога
Диффузионная голова генерирует акустические детали

Техническое значение

Выпуск VibeVoice-ASR знаменует важный прогресс в технологии распознавания речи:

Унифицированная архитектура: Интегрирует несколько независимых задач в одну модель
Обработка длинного контекста: Нарушает ограничения длины традиционного ASR
Оптимизация от начала до конца: Избегает потери информации при многоэтапной обработке
Профессиональная поддержка: Адаптируется к различным вертикальным областям через механизм ключевых слов

Это обеспечивает более мощное и гибкое решение для распознавания речи в профессиональных сценариях.

Связанные ссылки

Модель HuggingFace: https://huggingface.co/microsoft/VibeVoice-ASR
Репозиторий GitHub: https://github.com/microsoft/VibeVoice
Техническая статья: https://www.arxiv.org/pdf/2601.18184