OpenMOSS, MOVA 출시 - 오픈소스 동영상·오디오 동기화 생성 모델
2026. 01. 29.
NVIDIA, PersonaPlex-7B-v1 출시 - 전이중 음성 대화 모델
2026년 1월 20일, NVIDIA 연구소는 정식으로 PersonaPlex-7B-v1을 발표했습니다. 이는 Moshi 아키텍처를 기반으로 한 70억 파라미터의 전이중 음성 대화 모델입니다. 이 모델은 기존의 ASR→LLM→TTS 캐스케이드 파이프라인을 포기하고, 통합된 Transformer 아키텍처를 채택하여 단일 네트워크 내에서 음성 이해와 생성을 동기 처리하며, 자연스러운 중단, 중복 음성, 빠른 턴테이킹, 컨텍스트 인식 백채널을 지원합니다.
핵심 혁신
전이중 실시간 인터랙션
PersonaPlex-7B-v1의 가장 큰 돌파구는 진정한 전이중(Full Duplex) 대화 능력의 실현에 있습니다:
- 들으면서 말하기: 모델은 사용자 입력을 동시에 들으면서 응답 생성 가능
- 자연스러운 중단: 사용자가 언제든지 AI의 발언을 중단하는 것을 지원
- 즉각적인 피드백: “응응”, “맞아요”와 같은 백채널 생성 가능
- 진짜 리듬: 인간 대화의 자연스러운 멈춤과 억양 변화 시뮬레이션
기존 음성 AI는 경직된 3단계 프로세스(음성 인식→대규모 언어 모델 처리→음성 합성)를 사용합니다. 이 “듣기-생각하기-말하기” 릴레이 모드는 기능하지만 항상 자연스러운 인터랙션 감각이 부족하여 대화를 기계적인 턴제 전투로 만듭니다.
PersonaPlex-7B-v1은 듀얼 스트림 Transformer 아키텍처를 통해 연속 오디오 토큰을 처리하고, 텍스트와 음성의 병렬 생성을 실현하며, 작업 인계나 강제 일시 정지가 필요하지 않습니다.
초저지연 응답
성능 테스트에서 PersonaPlex-7B-v1은 뛰어난 성적을 거두었습니다:
- 턴테이킹 비율: 90.8%
- 중단 응답 지연: 240밀리초까지 감소
- Time to First Token(TTFT): 약 170밀리초
이러한 지표는 기존 오픈소스 및 상용 시스템을 크게 능가하여 사용자에게 실제 인간 대화에 가까운 부드러운 경험을 제공합니다.
하이브리드 프롬프트 메커니즘
PersonaPlex는 혁신적인 하이브리드 프롬프트 메커니즘을 통해 정확한 역할 제어를 실현합니다:
음성 프롬프트(Voice Prompt)
- 음색과 운율 정의
- 말하기 속도와 감정 표현 제어
- 단 몇 초의 오디오 샘플로 고충실도 음성 클로닝 실현
텍스트 프롬프트(Text Prompt)
- 역할의 정체성과 비즈니스 시나리오 설정
- 지식 배경과 행동 스타일 정의
- 이름, 조직 등의 구조화된 정보 포함 가능
시스템 프롬프트(System Prompt)
- 컨텍스트 정보 제공
- 대화 규칙 설정
- 작업 목표 정의
이 다차원 프롬프트 시스템을 통해 PersonaPlex는 다양한 애플리케이션 시나리오에 유연하게 적응할 수 있으며, 전문 튜터부터 고객 서비스 담당자, 창의적인 가상 캐릭터부터 기술 지원까지 대응합니다.
기술 아키텍처
Moshi 기반 통합 아키텍처
PersonaPlex-7B-v1은 Moshi 아키텍처 위에 구축되어 엔드투엔드 모델링 방식을 사용합니다:
- Mimi 음성 인코더(ConvNet + Transformer): 원시 오디오를 이산 텍스트 토큰으로 매핑
- Temporal Transformer: 시간 차원에서 대화 리듬 모델링(언제 중단할지, 언제 기다릴지)
- Depth Transformer: 의미적 의도와 행동 전략을 깊이 분석
- Mimi 음성 디코더(Transformer + ConvNet): 토큰 시퀀스를 고충실도 음성으로 복원
오디오 샘플링 레이트는 24kHz에 도달하여 고품질 음성 출력을 보장합니다.
기반 언어 모델: Helium
PersonaPlex는 Helium을 기반 언어 모델로 사용하여 다음을 제공합니다:
- 의미 이해 능력
- 분포 외 시나리오에 대한 일반화 능력
- 강력한 컨텍스트 모델링
훈련 데이터
PersonaPlex의 훈련 데이터는 실제 대화와 고품질 합성 코퍼스를 융합합니다:
실제 대화 데이터
- 출처: Fisher English 코퍼스
- 규모: 7,303개 대화, 총 1,217시간
- 처리: GPT-OSS-120B를 사용하여 프롬프트로 백 주석
합성 대화 데이터
교육 보조 시나리오
- 규모: 39,322개 대화, 410시간
- 생성: Qwen3-32B 및 GPT-OSS-120B가 텍스트 생성, Chatterbox TTS가 음성 합성
고객 서비스 시나리오
- 규모: 105,410개 대화, 1,840시간
- 도메인: 교육, 의료, 금융 등 여러 수직 도메인 커버
이 하이브리드 훈련 전략을 통해 모델은 진실성과 일반화 능력을 모두 갖추게 됩니다.
성능
권위 있는 벤치마크 테스트에서 PersonaPlex-7B-v1은 뛰어난 성능을 발휘합니다:
대화 역학(FullDuplexBench)
- PersonaPlex: 90.8
- Moshi: 95.06
- Freeze Omni: 60.68
- Qwen 2.5 Omni: 86.53
응답 지연
- PersonaPlex: 0.170초
- Moshi: 0.240초
- Freeze Omni: 0.205초
- Qwen 2.5 Omni: 0.953초
작업 준수도
- PersonaPlex: 4.29
- Moshi: 4.40
- Freeze Omni: 4.34
- Qwen 2.5 Omni: 3.62
응용 시나리오
PersonaPlex-7B-v1은 다양한 시나리오에 적합합니다:
지능형 교육 지원
개인화된 교사로서 명확한 논리와 생생한 표현으로 지식 포인트를 설명하고, 학습 의욕을 자극하며, 다양한 인지 수준의 학생에게 적응합니다.
지능형 고객 서비스
은행, 통신, 보험 등 업계의 프론트라인 직무에 적임하며, 고객 요구에 기반해 전문적인 컨설팅을 제공하고, 인내심 있고 전문적인 서비스 태도를 유지합니다.
롤플레잉 및 게임
게임이나 시뮬레이션 시나리오에서 다양한 역할을 연기하여 몰입형 인터랙티브 경험을 제공합니다.
가상 동반자
일상 대화 동반을 제공하고, 감정을 이해하며 적절한 감정 피드백을 제공할 수 있습니다.
전문 시나리오
우주 비상 관리 등의 특수 시나리오에서 적절한 감정 톤으로 전문적인 안내를 제공할 수 있습니다.
오픈소스 및 가용성
PersonaPlex-7B-v1은 완전히 오픈소스화되어 친화적인 라이선스를 채택합니다:
- 코드: MIT License
- 모델 가중치: NVIDIA Open Model License
- 베이스 Moshi 모델: CC-BY-4.0
개발자는 다음을 수행할 수 있습니다:
- 무료로 다운로드 및 사용
- 로컬에서 배포 및 실행
- 2차 개발 및 커스터마이징 수행
- 상업 애플리케이션에 통합
액세스
- HuggingFace: https://huggingface.co/nvidia/personaplex-7b-v1
- GitHub: https://github.com/nvidia/personaplex
- 연구 페이지: https://research.nvidia.com/labs/adlr/personaplex/
기술적 의의
PersonaPlex-7B-v1의 출시는 음성 AI 인터랙션의 중요한 돌파구를 나타냅니다:
- 아키텍처 혁신: 캐스케이드 파이프라인에서 엔드투엔드 통합 처리로
- 자연스러운 인터랙션: 진정으로 “인간 대화의 호흡 리듬” 습득
- 낮은 장벽 배포: 오픈소스 모델이 자연스러운 대화 에이전트 구축의 기술 및 비용 장벽 하락
- 광범위한 응용: 실시간 번역, 몰입형 게임 NPC, 고급 차량용 어시스턴트 등 여러 도메인에 적합
NVIDIA는 PersonaPlex를 오픈소스화함으로써 음성 AI 분야에 로컬 배포 가능하고 상업적으로 실행 가능한 솔루션을 제공하여 차세대 인간-컴퓨터 인터랙션 인터페이스의 발전을 추진합니다.
관련 링크
- HuggingFace 모델: https://huggingface.co/nvidia/personaplex-7b-v1
- GitHub 리포지토리: https://github.com/nvidia/personaplex
- 연구 홈페이지: https://research.nvidia.com/labs/adlr/personaplex/