OpenMOSS, MOVA 출시 - 오픈소스 동영상·오디오 동기화 생성 모델
2026. 01. 29.
알리바바 Qwen, Qwen3-TTS 출시 - 97ms 초저지연 음성 합성 모델
2026년 1월 22일, 알리바바 Qwen 팀은 Qwen3-TTS 음성 생성 모델 시리즈를 정식으로 오픈소스화했습니다. 이는 음성 클로닝, 음성 창조, 초고품질 인간화 음성 생성, 자연어 기반 음성 제어를 포괄적으로 지원하는 강력한 음성 합성 시스템입니다. 이 모델 시리즈의 출시는 음성 합성 분야의 중요한 돌파구로 간주됩니다.
핵심 혁신
Dual-Track 모델링
Qwen3-TTS의 핵심 혁신은 Dual-Track(듀얼 트랙) 하이브리드 스트리밍 생성 메커니즘에 있으며, 이산 멀티 코드북 언어 모델과 결합하여 음성을 엔드투엔드로 직접 모델링하고, 기존 캐스케이드 아키텍처(LM+DiT 등)의 정보 병목 현상을 회피합니다.
이 혁신적인 아키텍처는 다음을 실현합니다:
- 초저지연: 엔드투엔드 합성 지연이 97ms까지 감소
- 즉각 응답: 1글자 입력만으로 첫 번째 오디오 패킷 출력
- 듀얼 모드 지원: 단일 모델로 스트리밍 및 비스트리밍 생성 모두 지원
이 궁극적인 응답 속도는 인간 대화 응답 속도에 근접하여 라이브 인터랙션, 실시간 번역, AI 고객 서비스 등 지연에 민감한 시나리오에 최적입니다.
Qwen3-TTS-Tokenizer-12Hz
모델은 혁신적인 Qwen3-TTS-Tokenizer-12Hz 멀티 코드북 음성 인코더에 의존하여 음성 신호의 효율적인 압축과 강력한 표현 능력을 실현합니다:
- 부언어 정보(억양, 리듬, 감정 등) 완전 보존
- 음향 환경 특성 보존
- 경량 비DiT 아키텍처를 통한 고속·고충실도 음성 복원 실현
이산 멀티 코드북 LM 아키텍처
이산 멀티 코드북 언어 모델(LM) 아키텍처를 채택하여 음성의 전체 정보 엔드투엔드 모델링을 실현:
- 기존 LM+DiT 솔루션의 정보 병목 현상 완전 회피
- 캐스케이드 오류 회피
- 모델의 범용성, 생성 효율, 성능 상한선 대폭 향상
모델 시리즈
Qwen3-TTS는 다양한 시나리오의 요구를 충족하기 위해 두 가지 파라미터 스케일을 제공합니다:
1.7B 모델 시리즈
궁극의 성능, 강력한 제어
Qwen3-TTS-12Hz-1.7B-VoiceDesign
- 사용자 제공 자연어 설명에 기반한 음성 디자인 수행
- 음향 속성, 페르소나, 배경 정보를 자유롭게 정의 가능
- 독특한 맞춤형 음성 생성
Qwen3-TTS-12Hz-1.7B-CustomVoice
- 사용자 지시를 통한 대상 음성의 스타일 제어 제공
- 9개의 프리미엄 음성 지원, 성별, 연령, 언어, 방언의 다양한 조합 커버
- 지시를 통해 음성, 감정, 운율 등 다차원 음향 속성을 유연하게 제어 가능
Qwen3-TTS-12Hz-1.7B-Base
- 베이스 모델, 사용자 제공 3초 오디오에서 빠르게 음성 클로닝
- 다른 모델의 파인튜닝에 사용 가능
- 최대의 유연성과 커스터마이징 공간 제공
0.6B 모델 시리즈
성능과 효율의 균형
Qwen3-TTS-12Hz-0.6B-CustomVoice
- 9개의 프리미엄 음성 지원
- 양호한 효과를 유지하면서 리소스 소비 대폭 감소
- 리소스 제약이 있는 엣지 디바이스나 모바일 디바이스 배포에 적합
Qwen3-TTS-12Hz-0.6B-Base
- 베이스 모델, 3초 빠른 음성 클로닝 지원
- 더 낮은 컴퓨팅 리소스 요구사항
- 고동시성 배포 시나리오에 적합
핵심 기능
3초 빠른 음성 클로닝
음성 클로닝 능력은 특히 인상적입니다:
- 단 3초의 참조 오디오로 고충실도 제로샷 음성 복제 실현
- 클로닝된 음성은 원활한 크로스 언어 마이그레이션 지원
- 중국어 음성으로 영어, 일본어, 한국어 등 10개 언어를 직접 말할 수 있음
- 원래 음성 특성을 동시에 보존
크로스 언어/방언 제로 손실 마이그레이션
- 10개 주요 언어 지원: 중국어, 영어, 일본어, 한국어, 독일어, 프랑스어, 러시아어, 포르투갈어, 스페인어, 이탈리아어
- 여러 중국어 방언 지원: 쓰촨 방언, 베이징 방언 등
- 억양과 매력의 고정밀 복원
- 다국어 콘텐츠 제작 및 현지화 애플리케이션에 새로운 가능성 개척
자연어 음성 디자인
Voice Design 기능을 통해 사용자는 자연어 지시로 음성을 커스터마이징할 수 있습니다:
- “부드럽게 격려하는 성숙한 여성 목소리로 이야기를 들려주세요”
- “흥분한 고음의 젊은 남성 목소리로 게임을 해설하세요”
- 모델이 자동으로 억양, 감정, 리듬 조정
- 고도로 개인화된 표현 생성
이 “상상한 것이 들리는” 제어 능력은 오디오북 제작에서 특히 유용합니다. 한 사람이 여러 역할을 연기하고, 감정의 기복과 방언 전환을 모두 마스터할 수 있습니다.
지능형 컨텍스트 이해
모델은 강력한 텍스트 의미 이해 능력을 갖추고 있습니다:
- 입력 텍스트에 기반해 자동으로 톤, 리듬, 감정 조정 가능
- 다양한 시나리오 요구에 적응
- 입력 텍스트 노이즈에 대한 견고성 대폭 향상
- 인간화된 자연스러운 표현 실현
성능
콘텐츠 일관성(WER)
콘텐츠 일관성 평가에서 뛰어난 성능:
- 중국어: WER 0.77
- 영어: WER 1.24
제어 가능한 음성 생성
Qwen3-TTS-12Hz-1.7B-CustomVoice는 다음 지표에서 강력한 성능을 보입니다:
- APS(Audio Prosody Similarity): 높은 운율 유사도
- DSD(Duration Similarity Distance): 정확한 지속 시간 제어
- RP(Rhythm Preservation): 뛰어난 리듬 보존
음성 디자인
Qwen3-TTS-12Hz-1.7B-VoiceDesign은 음성 디자인 작업에서 SOTA(State-of-the-Art) 수준을 달성했습니다.
음성 인코더
Qwen-TTS-Tokenizer-12Hz는 다음 지표에서 뛰어난 성능을 보입니다:
- PESQ: 지각 음성 품질 평가
- STOI: 단시간 객관적 명료도
- UTMOS: 평균 의견 점수
- SIM: 유사도
응용 시나리오
지능형 음성 어시스턴트
- 스마트 홈 디바이스 및 차량용 시스템에 자연스러운 음성 인터랙션 제공
- 여러 언어 및 방언 지원
- 사용자 경험 향상
콘텐츠 제작
- 텍스트를 빠르게 자연스러운 음성으로 변환
- 여러 음성 및 감정 표현 지원
- 오디오북 및 비디오 더빙에 적합
- 한 사람이 여러 역할을 연기하여 고품질 오디오 콘텐츠 제작
교육 분야
- 언어 학습 및 온라인 교육에 다국어·다음성 음성 출력 제공
- 학습 효과 향상
- 방언 교육 지원
게임 및 엔터테인먼트
- 게임 캐릭터에 개인화된 음성 생성
- 감정 및 톤 조정 지원
- 게임 몰입감 향상
고객 서비스
- 지능형 고객 서비스에 자연스럽고 친근한 음성 인터랙션 제공
- 실시간 대화 지원
- 고객 서비스 비용 절감
라이브 스트리밍 인터랙션
- 초저지연으로 실시간 인터랙션 요구 충족
- 다국어 라이브 스트리밍 지원
- 시청자 경험 향상
기술적 우위
엔드투엔드 아키텍처
- 기존 캐스케이드 아키텍처의 정보 병목 현상 회피
- 캐스케이드 오류 감소
- 전체 성능 향상
경량 및 효율적
- 비DiT 아키텍처는 고충실도 복원을 보장하면서 계산 효율을 효과적으로 향상
- 0.6B 모델은 엣지 디바이스 배포에 적합
- 1.7B 모델은 궁극의 성능 추구
오픈소스 친화적
- 전체 시리즈를 GitHub 및 Hugging Face에 오픈소스화
- 전체 파라미터 파인튜닝 지원
- 개발자가 브랜드 전용 음성 이미지를 쉽게 구축 가능
오픈소스 및 가용성
Qwen3-TTS 전체 시리즈 모델은 완전히 오픈소스화되어 다음을 지원합니다:
- 무료 상업적 사용
- 로컬 배포
- 2차 개발
- API 호출
액세스
- GitHub 리포지토리: https://github.com/QwenLM/Qwen3-TTS
- HuggingFace 모델 라이브러리: https://huggingface.co/collections/Qwen/qwen3-tts
- ModelScope: https://www.modelscope.cn/collections/Qwen/Qwen3-TTS
- Qwen API: 공식 API를 통해 직접 체험 가능
기술적 의의
Qwen3-TTS의 오픈소스화는 음성 합성 분야에 여러 돌파구를 가져왔습니다:
- 초저지연: 97ms 엔드투엔드 지연은 인간 대화 응답 속도에 근접
- 고충실도 클로닝: 3초 오디오로 음성 클로닝 실현
- 크로스 언어 능력: 단일 음성으로 10개 언어의 원활한 전환 지원
- 자연어 제어: 텍스트 설명으로 음성 디자인 실현
- 오픈소스 생태계: 실시간, 개인화, 다국어 음성 AI의 장벽 대폭 하락
Qwen3-TTS의 오픈소스화로 실시간, 개인화, 다국어 음성 AI의 장벽이 대폭 낮아졌습니다. 콘텐츠 크리에이터, 개발자, 기업 애플리케이션 모두 새로운 음성 인터랙션 혁명을 맞이하게 될 것입니다.
관련 링크
- GitHub 리포지토리: https://github.com/QwenLM/Qwen3-TTS
- HuggingFace 모델: https://huggingface.co/collections/Qwen/qwen3-tts
- ModelScope: https://www.modelscope.cn/collections/Qwen/Qwen3-TTS
- Qwen 공식 블로그: https://qwenlm.github.io/blog/qwen3-tts/