Microsoft выпускает VibeVoice-ASR - модель распознавания речи с поддержкой обработки 60-минутного длинного аудио за один проход
21 января 2026 года Microsoft официально выпустила VibeVoice-ASR, унифицированную модель распознавания речи с 9B параметрами, способную обрабатывать до 60 минут аудио за один проход. В отличие от традиционных моделей ASR, VibeVoice-ASR не сегментирует аудио на небольшие фрагменты для обработки, тем самым избегая потери глобального контекста и путаницы в отслеживании говорящих.
Основная инновация
Способность вывода за один проход на 60 минут
VibeVoice-ASR нарушает зависимость традиционного ASR от сегментации короткого аудио, поддерживая обработку за один проход непрерывного аудио до 60 минут. Через окно контекста 64K токенов модель совместно завершает распознавание, диаризацию говорящих и генерацию временных меток в одном процессе вывода.
Традиционные системы ASR обычно требуют:
- Сегментировать аудио на короткие клипы
- Выполнять распознавание речи отдельно
- Выполнять диаризацию говорящих (Diarization) отдельно
- Выравнивать временные метки в постобработке
Этот подход приводит к потере глобальной семантики и сбоям в отслеживании говорящих между сегментами. VibeVoice-ASR решает эти проблемы через унифицированную архитектуру от начала до конца.
Структурированный вывод транскрипции
Модель может генерировать структурированный текст транскрипции, содержащий “Кто, Когда, Что”:
- Кто: Точно идентифицирует разных говорящих
- Когда: Точная аннотация временных меток
- Что: Высококачественная текстовая транскрипция
Этот структурированный вывод особенно подходит для сценариев, таких как протоколы встреч, транскрипция интервью и транскрипция подкастов.
Поддержка пользовательских ключевых слов
VibeVoice-ASR поддерживает функциональность Customized Hotwords (пользовательские ключевые слова), позволяя пользователям вводить:
- Собственные имена
- Техническую терминологию
- Фоновый словарь
Это значительно улучшает точность распознавания для специфичных для домена или низкочастотных слов, особенно подходя для профессиональных сценариев, таких как медицинские, юридические и технические конференции.
Техническая архитектура
Декодер на основе Qwen2
Архитектура VibeVoice-ASR основана на Qwen2 Decoder, включая:
- 28 слоев слоев Transformer
- 3584 скрытых измерения
- Двойные акустические и семантические кодировщики
- Дизайн диффузионной головы
Длинный контекст на уровне 64K токенов
Используя сверхдлинные окна контекста, модель достигает:
- ASR (Автоматическое Распознавание Речи)
- Diarization (Диаризация Говорящих)
- Timestamping (Временные Метки)
Совместный вывод от начала до конца всех трех, формируя полный цикл понимания речи.
Оптимизация Flash-Attention
Основное вычисление опирается на технологию Flash-Attention, оптимизируя эффективность вывода сверхдлинных последовательностей, обеспечивая высокую производительность при обработке 60-минутного аудио.
Производительность
Комплексная оптимизация производительности
Благодаря совместному обучению VibeVoice-ASR имеет конкурентные преимущества в следующих метриках:
- DER (Коэффициент Ошибок Диаризации): Значительно снижен
- cpWER (Коэффициент Ошибок Символов с временными метками): Превосходит традиционные методы
Стандартизированная среда развертывания
Поддерживает NVIDIA PyTorch Container (проверенные версии 24.07 до 25.12), обеспечивая стабильную производительность в различных аппаратных средах.
Сценарии применения
VibeVoice-ASR особенно подходит для:
Протоколы встреч
- Автоматически генерирует полные протоколы встреч
- Точно маркирует каждого говорящего
- Точные временные метки для легкого просмотра
Транскрипция интервью
- Полная транскрипция длинных интервью
- Разделение говорящих в многопользовательских разговорах
- Точное распознавание профессиональной терминологии
Транскрипция подкастов
- Обработка за один проход длинного аудио контента
- Поддерживает глобальную семантическую согласованность
- Автоматически генерирует временную шкалу
Профессиональные области
- Медицина: Обсуждения случаев, хирургические записи
- Юриспруденция: Судебные записи, транскрипция показаний
- Техника: Технические конференции, учебные курсы
Открытый исходный код и доступность
VibeVoice-ASR открыт на Hugging Face с тестовыми демо, используя лицензию открытого исходного кода MIT, поддерживая:
- Бесплатное коммерческое использование
- Локальное развертывание
- Вторичную разработку
Доступ
- HuggingFace: https://huggingface.co/microsoft/VibeVoice-ASR
- GitHub: https://github.com/microsoft/VibeVoice
- Технический отчет: https://www.arxiv.org/pdf/2601.18184
Серия VibeVoice
VibeVoice-ASR является частью семейства VibeVoice, которое также включает:
- VibeVoice-TTS: Модель преобразования текста в речь
- VibeVoice-Realtime-0.5B: Модель синтеза речи в реальном времени (всего 0.5B параметров, время отклика 300мс)
Все модели используют унифицированную техническую структуру:
- Непрерывный речевой токенизатор (7.5 Гц)
- Структура диффузии следующего токена
- LLM рассуждение для текста и диалога
- Диффузионная голова генерирует акустические детали
Техническое значение
Выпуск VibeVoice-ASR знаменует важный прогресс в технологии распознавания речи:
- Унифицированная архитектура: Интегрирует несколько независимых задач в одну модель
- Обработка длинного контекста: Нарушает ограничения длины традиционного ASR
- Оптимизация от начала до конца: Избегает потери информации при многоэтапной обработке
- Профессиональная поддержка: Адаптируется к различным вертикальным областям через механизм ключевых слов
Это обеспечивает более мощное и гибкое решение для распознавания речи в профессиональных сценариях.
Связанные ссылки
- Модель HuggingFace: https://huggingface.co/microsoft/VibeVoice-ASR
- Репозиторий GitHub: https://github.com/microsoft/VibeVoice
- Техническая статья: https://www.arxiv.org/pdf/2601.18184