Microsoft, VibeVoice-ASR 출시 - 60분 장시간 오디오 싱글 패스 처리 지원 음성 인식 모델

2026년 1월 21일, Microsoft는 9B 파라미터를 가진 통합 음성 인식 모델 VibeVoice-ASR을 정식으로 출시했습니다. 이 모델은 최대 60분의 오디오를 한 번에 처리할 수 있습니다. 기존 ASR 모델과 달리 VibeVoice-ASR은 오디오를 작은 청크로 분할하여 처리하지 않으므로 글로벌 컨텍스트 손실과 화자 추적 혼란을 회피합니다.

핵심 혁신

60분 싱글 패스 추론 능력

VibeVoice-ASR은 기존 ASR의 짧은 오디오 세그먼테이션 의존성을 타파하고, 최대 60분의 연속 오디오 싱글 패스 처리를 지원합니다. 64K 토큰 컨텍스트 윈도우를 통해 모델은 단일 추론 프로세스에서 인식, 화자 분리, 타임스탬프 생성을 공동으로 완료합니다.

기존 ASR 시스템은 일반적으로 다음을 필요로 합니다:

오디오를 짧은 클립으로 분할
개별적으로 음성 인식 수행
화자 분리(Diarization)를 개별적으로 수행
후처리로 타임스탬프 정렬

이 접근 방식은 글로벌 의미 손실과 크로스 세그먼트 화자 추적 실패를 초래합니다. VibeVoice-ASR은 엔드투엔드 통합 아키텍처를 통해 이러한 문제를 해결합니다.

구조화된 전사 출력

모델은 **"Who, When, What"**을 포함하는 구조화된 전사 텍스트를 출력할 수 있습니다:

Who(누가): 다른 화자를 정확하게 식별
When(언제): 정확한 타임스탬프 주석
What(무엇을): 고품질 텍스트 전사

이 구조화된 출력은 회의록, 인터뷰 전사, 팟캐스트 전사 등의 시나리오에 특히 적합합니다.

커스텀 핫워드 지원

VibeVoice-ASR은 Customized Hotwords(커스텀 핫워드) 기능을 지원하여 사용자가 특정 항목을 주입할 수 있게 합니다:

고유 명사
기술 용어
배경 어휘

이를 통해 도메인별 또는 저빈도 단어의 인식 정확도가 대폭 향상되며, 의료, 법률, 기술 회의 등의 전문 시나리오에 특히 적합합니다.

기술 아키텍처

Qwen2 기반 디코더

VibeVoice-ASR의 아키텍처는 Qwen2 Decoder를 기반으로 하며 다음을 포함합니다:

28개 레이어의 Transformer 레이어
3584개의 은닉 차원
음향 및 의미 듀얼 인코더
확산 헤드 설계

64K 토큰 레벨 긴 컨텍스트

초장 컨텍스트 윈도우를 활용하여 모델은 다음을 실현합니다:

ASR(자동 음성 인식)
Diarization(화자 분리)
Timestamping(타임스탬프)

세 가지 모두의 엔드투엔드 공동 출력으로 완전한 음성 이해 루프를 형성합니다.

Flash-Attention 최적화

핵심 계산은 Flash-Attention 기술에 의존하여 초장 시퀀스의 추론 효율을 최적화하고, 60분 오디오를 처리할 때도 고성능을 유지합니다.

성능

종합 성능 최적화

공동 훈련을 통해 VibeVoice-ASR은 다음 지표에서 경쟁력 있는 우위를 가지고 있습니다:

DER(화자 오류율): 대폭 감소
cpWER(타임스탬프 포함 문자 오류율): 기존 방법보다 우수

표준화된 배포 환경

NVIDIA PyTorch Container(검증된 버전 24.07~25.12)를 지원하여 다양한 하드웨어 환경에서 안정적인 성능을 보장합니다.

응용 시나리오

VibeVoice-ASR은 특히 다음 시나리오에 적합합니다:

회의록

완전한 회의록 자동 생성
각 발언자를 정확하게 레이블링
정확한 타임스탬프로 쉽게 검토

인터뷰 전사

장시간 인터뷰의 완전한 전사
다자 대화의 화자 분리
전문 용어의 정확한 인식

팟캐스트 전사

긴 오디오 콘텐츠의 한 번 처리
글로벌 의미 일관성 유지
타임라인 자동 생성

전문 분야

의료: 증례 토론, 수술 기록
법률: 법정 기록, 증언 전사
기술: 기술 회의, 교육 과정

오픈소스 및 가용성

VibeVoice-ASR은 Hugging Face에서 오픈소스화되어 테스트 데모를 제공하며, MIT 오픈소스 라이선스를 사용하여 다음을 지원합니다:

무료 상업적 사용
로컬 배포
2차 개발

액세스

HuggingFace: https://huggingface.co/microsoft/VibeVoice-ASR
GitHub: https://github.com/microsoft/VibeVoice
기술 보고서: https://www.arxiv.org/pdf/2601.18184

VibeVoice 시리즈

VibeVoice-ASR은 VibeVoice 패밀리의 일부이며, 이 시리즈에는 다음도 포함됩니다:

VibeVoice-TTS: 텍스트 음성 변환 모델
VibeVoice-Realtime-0.5B: 실시간 음성 합성 모델(단 0.5B 파라미터, 300ms 응답 시간)

모든 모델은 통일된 기술 프레임워크를 사용합니다:

연속 음성 토크나이저(7.5 Hz)
Next-token 확산 프레임워크
LLM 텍스트 및 대화 추론
확산 헤드가 음향 세부 사항 생성

기술적 의의

VibeVoice-ASR의 출시는 음성 인식 기술의 중요한 진전을 나타냅니다:

통합 아키텍처: 여러 독립적인 작업을 단일 모델에 통합
긴 컨텍스트 처리: 기존 ASR의 길이 제한 타파
엔드투엔드 최적화: 다단계 처리로 인한 정보 손실 회피
전문 지원: 핫워드 메커니즘을 통해 다양한 수직 분야에 적응

이를 통해 전문 시나리오에서 음성 인식을 위한 더 강력하고 유연한 솔루션이 제공됩니다.