Skip to content
Follow me on X
ComfyUI Wiki
새소식알리바바 Qwen, Qwen3-TTS 출시 - 97ms 초저지연 음성 합성 모델

알리바바 Qwen, Qwen3-TTS 출시 - 97ms 초저지연 음성 합성 모델

2026년 1월 22일, 알리바바 Qwen 팀은 Qwen3-TTS 음성 생성 모델 시리즈를 정식으로 오픈소스화했습니다. 이는 음성 클로닝, 음성 창조, 초고품질 인간화 음성 생성, 자연어 기반 음성 제어를 포괄적으로 지원하는 강력한 음성 합성 시스템입니다. 이 모델 시리즈의 출시는 음성 합성 분야의 중요한 돌파구로 간주됩니다.

핵심 혁신

Dual-Track 모델링

Qwen3-TTS의 핵심 혁신은 Dual-Track(듀얼 트랙) 하이브리드 스트리밍 생성 메커니즘에 있으며, 이산 멀티 코드북 언어 모델과 결합하여 음성을 엔드투엔드로 직접 모델링하고, 기존 캐스케이드 아키텍처(LM+DiT 등)의 정보 병목 현상을 회피합니다.

이 혁신적인 아키텍처는 다음을 실현합니다:

  • 초저지연: 엔드투엔드 합성 지연이 97ms까지 감소
  • 즉각 응답: 1글자 입력만으로 첫 번째 오디오 패킷 출력
  • 듀얼 모드 지원: 단일 모델로 스트리밍 및 비스트리밍 생성 모두 지원

이 궁극적인 응답 속도는 인간 대화 응답 속도에 근접하여 라이브 인터랙션, 실시간 번역, AI 고객 서비스 등 지연에 민감한 시나리오에 최적입니다.

Qwen3-TTS-Tokenizer-12Hz

모델은 혁신적인 Qwen3-TTS-Tokenizer-12Hz 멀티 코드북 음성 인코더에 의존하여 음성 신호의 효율적인 압축과 강력한 표현 능력을 실현합니다:

  • 부언어 정보(억양, 리듬, 감정 등) 완전 보존
  • 음향 환경 특성 보존
  • 경량 비DiT 아키텍처를 통한 고속·고충실도 음성 복원 실현

이산 멀티 코드북 LM 아키텍처

이산 멀티 코드북 언어 모델(LM) 아키텍처를 채택하여 음성의 전체 정보 엔드투엔드 모델링을 실현:

  • 기존 LM+DiT 솔루션의 정보 병목 현상 완전 회피
  • 캐스케이드 오류 회피
  • 모델의 범용성, 생성 효율, 성능 상한선 대폭 향상

모델 시리즈

Qwen3-TTS는 다양한 시나리오의 요구를 충족하기 위해 두 가지 파라미터 스케일을 제공합니다:

1.7B 모델 시리즈

궁극의 성능, 강력한 제어

Qwen3-TTS-12Hz-1.7B-VoiceDesign

  • 사용자 제공 자연어 설명에 기반한 음성 디자인 수행
  • 음향 속성, 페르소나, 배경 정보를 자유롭게 정의 가능
  • 독특한 맞춤형 음성 생성

Qwen3-TTS-12Hz-1.7B-CustomVoice

  • 사용자 지시를 통한 대상 음성의 스타일 제어 제공
  • 9개의 프리미엄 음성 지원, 성별, 연령, 언어, 방언의 다양한 조합 커버
  • 지시를 통해 음성, 감정, 운율 등 다차원 음향 속성을 유연하게 제어 가능

Qwen3-TTS-12Hz-1.7B-Base

  • 베이스 모델, 사용자 제공 3초 오디오에서 빠르게 음성 클로닝
  • 다른 모델의 파인튜닝에 사용 가능
  • 최대의 유연성과 커스터마이징 공간 제공

0.6B 모델 시리즈

성능과 효율의 균형

Qwen3-TTS-12Hz-0.6B-CustomVoice

  • 9개의 프리미엄 음성 지원
  • 양호한 효과를 유지하면서 리소스 소비 대폭 감소
  • 리소스 제약이 있는 엣지 디바이스나 모바일 디바이스 배포에 적합

Qwen3-TTS-12Hz-0.6B-Base

  • 베이스 모델, 3초 빠른 음성 클로닝 지원
  • 더 낮은 컴퓨팅 리소스 요구사항
  • 고동시성 배포 시나리오에 적합

핵심 기능

3초 빠른 음성 클로닝

음성 클로닝 능력은 특히 인상적입니다:

  • 단 3초의 참조 오디오로 고충실도 제로샷 음성 복제 실현
  • 클로닝된 음성은 원활한 크로스 언어 마이그레이션 지원
  • 중국어 음성으로 영어, 일본어, 한국어 등 10개 언어를 직접 말할 수 있음
  • 원래 음성 특성을 동시에 보존

크로스 언어/방언 제로 손실 마이그레이션

  • 10개 주요 언어 지원: 중국어, 영어, 일본어, 한국어, 독일어, 프랑스어, 러시아어, 포르투갈어, 스페인어, 이탈리아어
  • 여러 중국어 방언 지원: 쓰촨 방언, 베이징 방언 등
  • 억양과 매력의 고정밀 복원
  • 다국어 콘텐츠 제작 및 현지화 애플리케이션에 새로운 가능성 개척

자연어 음성 디자인

Voice Design 기능을 통해 사용자는 자연어 지시로 음성을 커스터마이징할 수 있습니다:

  • “부드럽게 격려하는 성숙한 여성 목소리로 이야기를 들려주세요”
  • “흥분한 고음의 젊은 남성 목소리로 게임을 해설하세요”
  • 모델이 자동으로 억양, 감정, 리듬 조정
  • 고도로 개인화된 표현 생성

“상상한 것이 들리는” 제어 능력은 오디오북 제작에서 특히 유용합니다. 한 사람이 여러 역할을 연기하고, 감정의 기복과 방언 전환을 모두 마스터할 수 있습니다.

지능형 컨텍스트 이해

모델은 강력한 텍스트 의미 이해 능력을 갖추고 있습니다:

  • 입력 텍스트에 기반해 자동으로 톤, 리듬, 감정 조정 가능
  • 다양한 시나리오 요구에 적응
  • 입력 텍스트 노이즈에 대한 견고성 대폭 향상
  • 인간화된 자연스러운 표현 실현

성능

콘텐츠 일관성(WER)

콘텐츠 일관성 평가에서 뛰어난 성능:

  • 중국어: WER 0.77
  • 영어: WER 1.24

제어 가능한 음성 생성

Qwen3-TTS-12Hz-1.7B-CustomVoice는 다음 지표에서 강력한 성능을 보입니다:

  • APS(Audio Prosody Similarity): 높은 운율 유사도
  • DSD(Duration Similarity Distance): 정확한 지속 시간 제어
  • RP(Rhythm Preservation): 뛰어난 리듬 보존

음성 디자인

Qwen3-TTS-12Hz-1.7B-VoiceDesign은 음성 디자인 작업에서 SOTA(State-of-the-Art) 수준을 달성했습니다.

음성 인코더

Qwen-TTS-Tokenizer-12Hz는 다음 지표에서 뛰어난 성능을 보입니다:

  • PESQ: 지각 음성 품질 평가
  • STOI: 단시간 객관적 명료도
  • UTMOS: 평균 의견 점수
  • SIM: 유사도

응용 시나리오

지능형 음성 어시스턴트

  • 스마트 홈 디바이스 및 차량용 시스템에 자연스러운 음성 인터랙션 제공
  • 여러 언어 및 방언 지원
  • 사용자 경험 향상

콘텐츠 제작

  • 텍스트를 빠르게 자연스러운 음성으로 변환
  • 여러 음성 및 감정 표현 지원
  • 오디오북 및 비디오 더빙에 적합
  • 한 사람이 여러 역할을 연기하여 고품질 오디오 콘텐츠 제작

교육 분야

  • 언어 학습 및 온라인 교육에 다국어·다음성 음성 출력 제공
  • 학습 효과 향상
  • 방언 교육 지원

게임 및 엔터테인먼트

  • 게임 캐릭터에 개인화된 음성 생성
  • 감정 및 톤 조정 지원
  • 게임 몰입감 향상

고객 서비스

  • 지능형 고객 서비스에 자연스럽고 친근한 음성 인터랙션 제공
  • 실시간 대화 지원
  • 고객 서비스 비용 절감

라이브 스트리밍 인터랙션

  • 초저지연으로 실시간 인터랙션 요구 충족
  • 다국어 라이브 스트리밍 지원
  • 시청자 경험 향상

기술적 우위

엔드투엔드 아키텍처

  • 기존 캐스케이드 아키텍처의 정보 병목 현상 회피
  • 캐스케이드 오류 감소
  • 전체 성능 향상

경량 및 효율적

  • 비DiT 아키텍처는 고충실도 복원을 보장하면서 계산 효율을 효과적으로 향상
  • 0.6B 모델은 엣지 디바이스 배포에 적합
  • 1.7B 모델은 궁극의 성능 추구

오픈소스 친화적

  • 전체 시리즈를 GitHub 및 Hugging Face에 오픈소스화
  • 전체 파라미터 파인튜닝 지원
  • 개발자가 브랜드 전용 음성 이미지를 쉽게 구축 가능

오픈소스 및 가용성

Qwen3-TTS 전체 시리즈 모델은 완전히 오픈소스화되어 다음을 지원합니다:

  • 무료 상업적 사용
  • 로컬 배포
  • 2차 개발
  • API 호출

액세스

기술적 의의

Qwen3-TTS의 오픈소스화는 음성 합성 분야에 여러 돌파구를 가져왔습니다:

  1. 초저지연: 97ms 엔드투엔드 지연은 인간 대화 응답 속도에 근접
  2. 고충실도 클로닝: 3초 오디오로 음성 클로닝 실현
  3. 크로스 언어 능력: 단일 음성으로 10개 언어의 원활한 전환 지원
  4. 자연어 제어: 텍스트 설명으로 음성 디자인 실현
  5. 오픈소스 생태계: 실시간, 개인화, 다국어 음성 AI의 장벽 대폭 하락

Qwen3-TTS의 오픈소스화로 실시간, 개인화, 다국어 음성 AI의 장벽이 대폭 낮아졌습니다. 콘텐츠 크리에이터, 개발자, 기업 애플리케이션 모두 새로운 음성 인터랙션 혁명을 맞이하게 될 것입니다.

관련 링크