나리 랩스(Nari Labs)에서 Dia 1.6B 텍스트 대화 음성 합성 모델 출시

최종 업데이트: 2025년 4월 22일ComfyUI Wikinews

나리 랩스에서 오픈소스 텍스트 음성 변환 모델 Dia 1.6B를 발표했으며, 텍스트에서 직접 다중 캐릭터 대화를 생성하고 감정 표현과 비언어적 의사소통을 지원

나리 랩스(Nari Labs)는 최근 Dia라는 오픈소스 텍스트 음성 변환(TTS) 모델을 출시했습니다. 기존 TTS 모델과 달리, Dia는 대화 생성에 특화된 16억 매개변수 모델로, 텍스트 스크립트에서 직접 고도로 사실적인 다중 캐릭터 대화를 생성할 수 있습니다.

주요 특징

Dia 모델은 다음과 같은 특징을 제공합니다:

단일 텍스트 스크립트에서 여러 인물의 대화 생성
오디오 프롬프트를 통한 출력의 감정과 톤 제어 가능
웃음, 기침, 목 가다듬기 등 비언어적 의사소통 생성
연구 및 응용을 위한 오픈소스 가중치와 추론 코드 제공

현재 Dia 모델은 영어 음성 생성만 지원합니다.

온라인에서 체험하기

아래 Hugging Face 스페이스를 통해 Dia 모델을 직접 체험할 수 있습니다:

Invalid or blocked iframe URL.

사용 방법

Dia를 사용하여 대화를 생성하는 것은 간단합니다. 다음과 같이 대화 텍스트 형식을 지정하기만 하면 됩니다:

[S1]과 [S2] 태그를 사용하여 다른 화자를 구분
비언어적 표현은 괄호 안에 배치, 예: (laughs), (coughs) 등
오디오 샘플을 제공하여 음성 클로닝 가능

모델은 실행할 때마다 다른 목소리를 생성하지만, 오디오 프롬프트를 추가하거나 랜덤 시드를 고정하여 목소리 일관성을 유지할 수 있습니다.

하드웨어 요구 사항

Dia 모델은 현재 GPU 추론만 지원합니다(PyTorch 2.0+ 및 CUDA 12.6 필요). RTX 4090에서는 실시간 속도의 2배로 생성할 수 있습니다. 팀은 향후 CPU 지원과 양자화 버전을 추가할 계획입니다.

관련 링크

Dia 모델은 "나리"(한국어로 '백합'을 의미함)라는 이름을 가진 나리 랩스에서 개발했습니다. 팀은 정규직 연구 엔지니어 1명과 파트타임 연구 엔지니어 1명으로 구성되어 있으며, Google TPU Research Cloud 프로그램으로부터 컴퓨팅 리소스 지원을 받았습니다.

댓글

GitHub로 로그인하고 토론에 참여하세요.

댓글을 불러오는 중…

나리 랩스(Nari Labs)에서 Dia 1.6B 텍스트 대화 음성 합성 모델 출시 | ComfyUI Wiki