OpenMOSS 发布 MOVA - 开源音视频同步生成模型

2026/01/29

NVIDIA 发布 PersonaPlex-7B-v1 - 全双工语音对话模型

2026年1月20日，NVIDIA 研究院正式推出 PersonaPlex-7B-v1，一款基于 Moshi 架构的 70 亿参数全双工语音到语音对话模型。该模型摒弃传统 ASR→LLM→TTS 级联流程，采用统一 Transformer 架构，在单一网络中同步处理语音理解与生成，支持自然打断、重叠语音、快速轮转及上下文感知的反馈词。

核心创新

全双工实时交互

PersonaPlex-7B-v1 最大的突破在于实现了真正的 全双工（Full Duplex） 对话能力：

边听边说：模型可以同时聆听用户输入并生成回应
自然打断：支持用户随时打断 AI 的发言
即时反馈：能够产生”嗯嗯”、“对的”等背景反馈词（backchannels）
真实节奏：模拟人类对话的自然停顿和语气变化

传统语音 AI 采用僵化的三段式流程（语音识别→大语言模型处理→语音合成），这种”听-想-说”的接力模式虽能运行，却始终缺乏自然交互感，使对话变成机械的回合制博弈。

PersonaPlex-7B-v1 通过 双流 Transformer 架构 处理连续音频 token，实现文本与语音的并行生成，无需任务交接，无需强制停顿。

超低延迟响应

在性能测试中，PersonaPlex-7B-v1 表现出色：

轮转接管率：90.8%
中断响应延迟：低至 240 毫秒
首字音频延迟（TTFT）：约 170 毫秒

这些指标显著优于现有开源及商用系统，为用户提供了接近真人对话的流畅体验。

混合提示机制

PersonaPlex 通过创新的 混合提示机制 实现精准角色控制：

音频提示（Voice Prompt）

定义音色与韵律
控制语速和情感表达
仅需数秒音频样本即可实现高保真语音克隆

文本提示（Text Prompt）

设定角色身份与业务场景
定义知识背景与行为风格
可包含名称、机构等结构化信息

系统提示（System Prompt）

提供上下文信息
设置对话规则
定义任务目标

这种多维度的提示系统使得 PersonaPlex 能够灵活适应各种应用场景，从专业导师到客服代表，从创意虚拟人物到技术支持。

技术架构

基于 Moshi 的统一架构

PersonaPlex-7B-v1 建立在 Moshi 架构之上，采用端到端建模方式：

Mimi 语音编码器（ConvNet + Transformer）：将原始音频映射为离散文本标记
Temporal Transformer：建模时间维度上的对话节奏（何时插话、何时等待）
Depth Transformer：深层解析语义意图与行为策略
Mimi 语音解码器（Transformer + ConvNet）：将标记序列还原为高保真语音

音频采样率达 24kHz，确保高质量的语音输出。

底层语言模型：Helium

PersonaPlex 使用 Helium 作为底层语言模型，提供：

语义理解能力
泛化到分布外场景的能力
强大的上下文建模

训练数据

PersonaPlex 的训练数据融合了真实对话与高质量合成语料：

真实对话数据

来源：Fisher English 语料库
规模：7,303 段对话，总计 1,217 小时
处理：使用 GPT-OSS-120B 进行反向标注

合成对话数据

助教场景

规模：39,322 段对话，410 小时
生成：Qwen3-32B 和 GPT-OSS-120B 生成文本，Chatterbox TTS 合成语音

客服场景

规模：105,410 段对话，1,840 小时
领域：覆盖教育、医疗、金融等多个垂直领域

这种混合训练策略确保模型兼具真实性与泛化能力。

性能表现

在权威基准测试中，PersonaPlex-7B-v1 表现优异：

对话动态性（FullDuplexBench）

PersonaPlex：90.8
Moshi：95.06
Freeze Omni：60.68
Qwen 2.5 Omni：86.53

响应延迟

PersonaPlex：0.170 秒
Moshi：0.240 秒
Freeze Omni：0.205 秒
Qwen 2.5 Omni：0.953 秒

任务遵循度

PersonaPlex：4.29
Moshi：4.40
Freeze Omni：4.34
Qwen 2.5 Omni：3.62

应用场景

PersonaPlex-7B-v1 适用于多种场景：

智能教育辅助

化身个性化教师，以清晰逻辑与生动表达讲解知识点，激发学习兴趣并适配不同认知水平的学生。

智能化客户服务

胜任银行、电信、保险等行业一线岗位，依据客户需求提供专业咨询，保持耐心和专业的服务态度。

角色扮演与游戏

在游戏或模拟场景中扮演各种角色，提供沉浸式的交互体验。

虚拟伴侣

提供日常对话陪伴，能够理解情绪并给予适当的情感反馈。

专业场景

如太空紧急管理等特殊场景，能够以适当的情绪语调提供专业指导。

开源与可用性

PersonaPlex-7B-v1 完全开源，采用友好的许可协议：

代码：MIT License
模型权重：NVIDIA Open Model License
基础 Moshi 模型：CC-BY-4.0

开发者可以：

免费下载和使用
本地部署运行
进行二次开发和定制
集成到商业应用中

获取方式

HuggingFace：https://huggingface.co/nvidia/personaplex-7b-v1
GitHub：https://github.com/nvidia/personaplex
研究页面：https://research.nvidia.com/labs/adlr/personaplex/

技术意义

PersonaPlex-7B-v1 的发布标志着语音 AI 交互的重要突破：

架构革新：从级联流程到端到端统一处理
交互自然：真正掌握”人类对话的呼吸感”
低门槛部署：开源模型降低了构建自然对话式 Agent 的技术与成本门槛
应用广泛：适用于实时翻译、沉浸式游戏 NPC、高级车载助手等多个领域

NVIDIA 通过开源 PersonaPlex，为语音 AI 领域提供了一个可本地化部署的、具有商业可行性的解决方案，推动了下一代人机交互界面的发展。