알리바바 Qwen, Qwen3-TTS 출시 - 97ms 초저지연 음성 합성 모델

2026년 1월 22일, 알리바바 Qwen 팀은 Qwen3-TTS 음성 생성 모델 시리즈를 정식으로 오픈소스화했습니다. 이는 음성 클로닝, 음성 창조, 초고품질 인간화 음성 생성, 자연어 기반 음성 제어를 포괄적으로 지원하는 강력한 음성 합성 시스템입니다. 이 모델 시리즈의 출시는 음성 합성 분야의 중요한 돌파구로 간주됩니다.

핵심 혁신

Dual-Track 모델링

Qwen3-TTS의 핵심 혁신은 Dual-Track(듀얼 트랙) 하이브리드 스트리밍 생성 메커니즘에 있으며, 이산 멀티 코드북 언어 모델과 결합하여 음성을 엔드투엔드로 직접 모델링하고, 기존 캐스케이드 아키텍처(LM+DiT 등)의 정보 병목 현상을 회피합니다.

이 혁신적인 아키텍처는 다음을 실현합니다:

초저지연: 엔드투엔드 합성 지연이 97ms까지 감소
즉각 응답: 1글자 입력만으로 첫 번째 오디오 패킷 출력
듀얼 모드 지원: 단일 모델로 스트리밍 및 비스트리밍 생성 모두 지원

이 궁극적인 응답 속도는 인간 대화 응답 속도에 근접하여 라이브 인터랙션, 실시간 번역, AI 고객 서비스 등 지연에 민감한 시나리오에 최적입니다.

Qwen3-TTS-Tokenizer-12Hz

모델은 혁신적인 Qwen3-TTS-Tokenizer-12Hz 멀티 코드북 음성 인코더에 의존하여 음성 신호의 효율적인 압축과 강력한 표현 능력을 실현합니다:

부언어 정보(억양, 리듬, 감정 등) 완전 보존
음향 환경 특성 보존
경량 비DiT 아키텍처를 통한 고속·고충실도 음성 복원 실현

이산 멀티 코드북 LM 아키텍처

이산 멀티 코드북 언어 모델(LM) 아키텍처를 채택하여 음성의 전체 정보 엔드투엔드 모델링을 실현:

기존 LM+DiT 솔루션의 정보 병목 현상 완전 회피
캐스케이드 오류 회피
모델의 범용성, 생성 효율, 성능 상한선 대폭 향상

모델 시리즈

Qwen3-TTS는 다양한 시나리오의 요구를 충족하기 위해 두 가지 파라미터 스케일을 제공합니다:

1.7B 모델 시리즈

궁극의 성능, 강력한 제어

Qwen3-TTS-12Hz-1.7B-VoiceDesign

사용자 제공 자연어 설명에 기반한 음성 디자인 수행
음향 속성, 페르소나, 배경 정보를 자유롭게 정의 가능
독특한 맞춤형 음성 생성

Qwen3-TTS-12Hz-1.7B-CustomVoice

사용자 지시를 통한 대상 음성의 스타일 제어 제공
9개의 프리미엄 음성 지원, 성별, 연령, 언어, 방언의 다양한 조합 커버
지시를 통해 음성, 감정, 운율 등 다차원 음향 속성을 유연하게 제어 가능

Qwen3-TTS-12Hz-1.7B-Base

베이스 모델, 사용자 제공 3초 오디오에서 빠르게 음성 클로닝
다른 모델의 파인튜닝에 사용 가능
최대의 유연성과 커스터마이징 공간 제공

0.6B 모델 시리즈

성능과 효율의 균형

Qwen3-TTS-12Hz-0.6B-CustomVoice

9개의 프리미엄 음성 지원
양호한 효과를 유지하면서 리소스 소비 대폭 감소
리소스 제약이 있는 엣지 디바이스나 모바일 디바이스 배포에 적합

Qwen3-TTS-12Hz-0.6B-Base

베이스 모델, 3초 빠른 음성 클로닝 지원
더 낮은 컴퓨팅 리소스 요구사항
고동시성 배포 시나리오에 적합

핵심 기능

3초 빠른 음성 클로닝

음성 클로닝 능력은 특히 인상적입니다:

단 3초의 참조 오디오로 고충실도 제로샷 음성 복제 실현
클로닝된 음성은 원활한 크로스 언어 마이그레이션 지원
중국어 음성으로 영어, 일본어, 한국어 등 10개 언어를 직접 말할 수 있음
원래 음성 특성을 동시에 보존

크로스 언어/방언 제로 손실 마이그레이션

10개 주요 언어 지원: 중국어, 영어, 일본어, 한국어, 독일어, 프랑스어, 러시아어, 포르투갈어, 스페인어, 이탈리아어
여러 중국어 방언 지원: 쓰촨 방언, 베이징 방언 등
억양과 매력의 고정밀 복원
다국어 콘텐츠 제작 및 현지화 애플리케이션에 새로운 가능성 개척

자연어 음성 디자인

Voice Design 기능을 통해 사용자는 자연어 지시로 음성을 커스터마이징할 수 있습니다:

"부드럽게 격려하는 성숙한 여성 목소리로 이야기를 들려주세요"
"흥분한 고음의 젊은 남성 목소리로 게임을 해설하세요"
모델이 자동으로 억양, 감정, 리듬 조정
고도로 개인화된 표현 생성

이 "상상한 것이 들리는" 제어 능력은 오디오북 제작에서 특히 유용합니다. 한 사람이 여러 역할을 연기하고, 감정의 기복과 방언 전환을 모두 마스터할 수 있습니다.

지능형 컨텍스트 이해

모델은 강력한 텍스트 의미 이해 능력을 갖추고 있습니다:

입력 텍스트에 기반해 자동으로 톤, 리듬, 감정 조정 가능
다양한 시나리오 요구에 적응
입력 텍스트 노이즈에 대한 견고성 대폭 향상
인간화된 자연스러운 표현 실현

성능

콘텐츠 일관성(WER)

콘텐츠 일관성 평가에서 뛰어난 성능:

중국어: WER 0.77
영어: WER 1.24

제어 가능한 음성 생성

Qwen3-TTS-12Hz-1.7B-CustomVoice는 다음 지표에서 강력한 성능을 보입니다:

APS(Audio Prosody Similarity): 높은 운율 유사도
DSD(Duration Similarity Distance): 정확한 지속 시간 제어
RP(Rhythm Preservation): 뛰어난 리듬 보존

음성 디자인

Qwen3-TTS-12Hz-1.7B-VoiceDesign은 음성 디자인 작업에서 SOTA(State-of-the-Art) 수준을 달성했습니다.

음성 인코더

Qwen-TTS-Tokenizer-12Hz는 다음 지표에서 뛰어난 성능을 보입니다:

PESQ: 지각 음성 품질 평가
STOI: 단시간 객관적 명료도
UTMOS: 평균 의견 점수
SIM: 유사도

응용 시나리오

지능형 음성 어시스턴트

스마트 홈 디바이스 및 차량용 시스템에 자연스러운 음성 인터랙션 제공
여러 언어 및 방언 지원
사용자 경험 향상

콘텐츠 제작

텍스트를 빠르게 자연스러운 음성으로 변환
여러 음성 및 감정 표현 지원
오디오북 및 비디오 더빙에 적합
한 사람이 여러 역할을 연기하여 고품질 오디오 콘텐츠 제작

교육 분야

언어 학습 및 온라인 교육에 다국어·다음성 음성 출력 제공
학습 효과 향상
방언 교육 지원

게임 및 엔터테인먼트

게임 캐릭터에 개인화된 음성 생성
감정 및 톤 조정 지원
게임 몰입감 향상

고객 서비스

지능형 고객 서비스에 자연스럽고 친근한 음성 인터랙션 제공
실시간 대화 지원
고객 서비스 비용 절감

라이브 스트리밍 인터랙션

초저지연으로 실시간 인터랙션 요구 충족
다국어 라이브 스트리밍 지원
시청자 경험 향상

기술적 우위

엔드투엔드 아키텍처

기존 캐스케이드 아키텍처의 정보 병목 현상 회피
캐스케이드 오류 감소
전체 성능 향상

경량 및 효율적

비DiT 아키텍처는 고충실도 복원을 보장하면서 계산 효율을 효과적으로 향상
0.6B 모델은 엣지 디바이스 배포에 적합
1.7B 모델은 궁극의 성능 추구

오픈소스 친화적

전체 시리즈를 GitHub 및 Hugging Face에 오픈소스화
전체 파라미터 파인튜닝 지원
개발자가 브랜드 전용 음성 이미지를 쉽게 구축 가능

오픈소스 및 가용성

Qwen3-TTS 전체 시리즈 모델은 완전히 오픈소스화되어 다음을 지원합니다:

무료 상업적 사용
로컬 배포
2차 개발
API 호출

액세스

GitHub 리포지토리: https://github.com/QwenLM/Qwen3-TTS
HuggingFace 모델 라이브러리: https://huggingface.co/collections/Qwen/qwen3-tts
ModelScope: https://www.modelscope.cn/collections/Qwen/Qwen3-TTS
Qwen API: 공식 API를 통해 직접 체험 가능

기술적 의의

Qwen3-TTS의 오픈소스화는 음성 합성 분야에 여러 돌파구를 가져왔습니다:

초저지연: 97ms 엔드투엔드 지연은 인간 대화 응답 속도에 근접
고충실도 클로닝: 3초 오디오로 음성 클로닝 실현
크로스 언어 능력: 단일 음성으로 10개 언어의 원활한 전환 지원
자연어 제어: 텍스트 설명으로 음성 디자인 실현
오픈소스 생태계: 실시간, 개인화, 다국어 음성 AI의 장벽 대폭 하락

Qwen3-TTS의 오픈소스화로 실시간, 개인화, 다국어 음성 AI의 장벽이 대폭 낮아졌습니다. 콘텐츠 크리에이터, 개발자, 기업 애플리케이션 모두 새로운 음성 인터랙션 혁명을 맞이하게 될 것입니다.