Higgs TTS 3: Boson AI의 4B 파라미터 다국어 음성 모델, 100개 이상 언어 지원

Higgs TTS 3는 Boson AI가 개발한 4B 파라미터 다국어 텍스트-음성 변환 모델로, 100개 이상의 언어를 지원하며 표현력 있는 음성 생성, 제로샷 음성 복제, 감정, 운율, 음향 효과에 대한 세밀한 제어를 제공합니다.

개요

Boson AI가 2026년 6월 4일에 공개한 Higgs TTS 3(모델 ID: bosonai/higgs-tts-3-4b)는 4B 파라미터의 강력한 텍스트-음성 변환 모델로, 음성 에이전트 및 대화형 AI 애플리케이션을 위해 특별히 설계되었습니다. 단순히 텍스트를 '읽는' 기존 TTS 시스템과 달리, Higgs TTS 3는 '말하는' 방식으로 구축되어 감정적 뉘앙스를 지닌 표현력 있는 자연스러운 대화 음성을 생성합니다.

이 모델은 Qwen3 기반의 Higgs 멀티모달 아키텍처를 기반으로 하며, 인터리브된 텍스트와 오디오 토큰을 처리하는 자기회귀 디코더를 사용합니다. 오디오는 Higgs Tokenizer에 의해 25fps로 8개 코드북으로 인코딩되고 지연 패턴을 적용한 후 고품질 파형으로 다시 디코딩됩니다.

주요 기능

| 기능 | 설명 | |

다국어 지원

Higgs TTS 3는 100개 이상의 언어를 지원하며 주요 어족을 포함합니다:

유럽어: 영어, 스페인어, 프랑스어, 독일어, 이탈리아어, 포르투갈어, 러시아어, 폴란드어, 네덜란드어, 스웨덴어, 노르웨이어, 덴마크어, 핀란드어, 그리스어, 체코어, 루마니아어, 헝가리어, 우크라이나어 등
아시아어: 중국어(표준/광둥어), 일본어, 한국어, 힌디어, 벵골어, 타밀어, 텔루구어, 우르두어, 베트남어, 태국어, 인도네시아어, 말레이어, 버마어, 크메르어, 라오어 등
중동/아프리카어: 아랍어, 히브리어, 터키어, 페르시아어(파르시), 스와힐리어, 암하라어, 하우사어, 요루바어, 이그보어, 줄루어, 코사어 등
기타: 타갈로그어, 네팔어, 신할라어, 조지아어, 아르메니아어, 아제르바이잔어, 카자흐어, 우즈베크어 등

표현 제어

Higgs TTS 3는 입력 텍스트에 포함된 인라인 제어 태그를 통해 음성 출력에 대한 세밀한 제어를 제공합니다:

21가지 감정 (문장 단위)

affection, amusement, anger, arousal, awe, bitterness, confusion, contemplation, contentment, determination, disgust, elation, enthusiasm, fear, helplessness, longing, pride, relief, sadness, shame, surprise

운율 제어 (10가지)

속도 제어: speed_very_slow, speed_slow, speed_fast, speed_very_fast 음높이: pitch_low, pitch_high 표현력: expressive_more, expressive_less, pause, long_pause

인라인 음향 효과

인라인으로 음향 효과를 트리거할 수 있습니다: cough, laughter, sigh, applause, bell, knock 등.

사용 예시

<|emotion:elation|>환영합니다. 저희가 여러분을 모시게 되어 정말 기쁩니다!
<|sfx:cough|>에헴, 오늘 프레젠테이션을 시작하겠습니다.
<|style:whispering|>조금 더 가까이 오세요, 작은 비밀을 하나 알려드릴게요.

제로샷 음성 복제

이 모델은 짧은 ReferenceTimbreAudio 샘플로부터 제로샷 음성 복제를 지원하며, 미세 조정 없이도 대상 음성으로 음성을 합성할 수 있습니다. 이는 다음과 같은 용도에 적합합니다:

일관된 캐릭터 음성을 사용하는 음성 에이전트 애플리케이션
단일 음성으로 다국어 콘텐츠 제작
개인화된 음성 합성

사용 가능 위치

Hugging Face: bosonai/higgs-tts-3-4b
블로그 포스트: Boson AI Blog: Higgs Audio v3

Higgs TTS 3는 맞춤 라이선스 하에 연구 및 비상업적 용도로 공개되었습니다. 금지되는 사용에는 동의 없는 음성 복제, 사칭, 사기, 선거 기만, 생체 인식 감시가 포함됩니다.

요약

Higgs TTS 3는 4B 파라미터 백본, 광범위한 언어 커버리지, 표현력 있는 감정 제어, 제로샷 음성 복제 기능을 결합하여 오픈 웨이트 다국어 음성 합성 분야에서 중요한 진전을 보여줍니다. 음성 에이전트나 다국어 음성 애플리케이션을 개발하는 개발자에게 최첨단 표현력을 갖춘 연구 수준의 매력적인 솔루션을 제공합니다.