Skip to content
Follow me on X
ComfyUI Wiki
新闻NVIDIA 发布 PersonaPlex-7B-v1 - 全双工语音对话模型

NVIDIA 发布 PersonaPlex-7B-v1 - 全双工语音对话模型

2026年1月20日,NVIDIA 研究院正式推出 PersonaPlex-7B-v1,一款基于 Moshi 架构的 70 亿参数全双工语音到语音对话模型。该模型摒弃传统 ASR→LLM→TTS 级联流程,采用统一 Transformer 架构,在单一网络中同步处理语音理解与生成,支持自然打断、重叠语音、快速轮转及上下文感知的反馈词。

核心创新

全双工实时交互

PersonaPlex-7B-v1 最大的突破在于实现了真正的 全双工(Full Duplex) 对话能力:

  • 边听边说:模型可以同时聆听用户输入并生成回应
  • 自然打断:支持用户随时打断 AI 的发言
  • 即时反馈:能够产生”嗯嗯”、“对的”等背景反馈词(backchannels)
  • 真实节奏:模拟人类对话的自然停顿和语气变化

传统语音 AI 采用僵化的三段式流程(语音识别→大语言模型处理→语音合成),这种”听-想-说”的接力模式虽能运行,却始终缺乏自然交互感,使对话变成机械的回合制博弈。

PersonaPlex-7B-v1 通过 双流 Transformer 架构 处理连续音频 token,实现文本与语音的并行生成,无需任务交接,无需强制停顿。

超低延迟响应

在性能测试中,PersonaPlex-7B-v1 表现出色:

  • 轮转接管率:90.8%
  • 中断响应延迟:低至 240 毫秒
  • 首字音频延迟(TTFT):约 170 毫秒

这些指标显著优于现有开源及商用系统,为用户提供了接近真人对话的流畅体验。

混合提示机制

PersonaPlex 通过创新的 混合提示机制 实现精准角色控制:

音频提示(Voice Prompt)

  • 定义音色与韵律
  • 控制语速和情感表达
  • 仅需数秒音频样本即可实现高保真语音克隆

文本提示(Text Prompt)

  • 设定角色身份与业务场景
  • 定义知识背景与行为风格
  • 可包含名称、机构等结构化信息

系统提示(System Prompt)

  • 提供上下文信息
  • 设置对话规则
  • 定义任务目标

这种多维度的提示系统使得 PersonaPlex 能够灵活适应各种应用场景,从专业导师到客服代表,从创意虚拟人物到技术支持。

技术架构

基于 Moshi 的统一架构

PersonaPlex-7B-v1 建立在 Moshi 架构之上,采用端到端建模方式:

  • Mimi 语音编码器(ConvNet + Transformer):将原始音频映射为离散文本标记
  • Temporal Transformer:建模时间维度上的对话节奏(何时插话、何时等待)
  • Depth Transformer:深层解析语义意图与行为策略
  • Mimi 语音解码器(Transformer + ConvNet):将标记序列还原为高保真语音

音频采样率达 24kHz,确保高质量的语音输出。

底层语言模型:Helium

PersonaPlex 使用 Helium 作为底层语言模型,提供:

  • 语义理解能力
  • 泛化到分布外场景的能力
  • 强大的上下文建模

训练数据

PersonaPlex 的训练数据融合了真实对话与高质量合成语料:

真实对话数据

  • 来源:Fisher English 语料库
  • 规模:7,303 段对话,总计 1,217 小时
  • 处理:使用 GPT-OSS-120B 进行反向标注

合成对话数据

助教场景

  • 规模:39,322 段对话,410 小时
  • 生成:Qwen3-32B 和 GPT-OSS-120B 生成文本,Chatterbox TTS 合成语音

客服场景

  • 规模:105,410 段对话,1,840 小时
  • 领域:覆盖教育、医疗、金融等多个垂直领域

这种混合训练策略确保模型兼具真实性与泛化能力。

性能表现

在权威基准测试中,PersonaPlex-7B-v1 表现优异:

对话动态性(FullDuplexBench)

  • PersonaPlex:90.8
  • Moshi:95.06
  • Freeze Omni:60.68
  • Qwen 2.5 Omni:86.53

响应延迟

  • PersonaPlex:0.170 秒
  • Moshi:0.240 秒
  • Freeze Omni:0.205 秒
  • Qwen 2.5 Omni:0.953 秒

任务遵循度

  • PersonaPlex:4.29
  • Moshi:4.40
  • Freeze Omni:4.34
  • Qwen 2.5 Omni:3.62

应用场景

PersonaPlex-7B-v1 适用于多种场景:

智能教育辅助

化身个性化教师,以清晰逻辑与生动表达讲解知识点,激发学习兴趣并适配不同认知水平的学生。

智能化客户服务

胜任银行、电信、保险等行业一线岗位,依据客户需求提供专业咨询,保持耐心和专业的服务态度。

角色扮演与游戏

在游戏或模拟场景中扮演各种角色,提供沉浸式的交互体验。

虚拟伴侣

提供日常对话陪伴,能够理解情绪并给予适当的情感反馈。

专业场景

如太空紧急管理等特殊场景,能够以适当的情绪语调提供专业指导。

开源与可用性

PersonaPlex-7B-v1 完全开源,采用友好的许可协议:

  • 代码:MIT License
  • 模型权重:NVIDIA Open Model License
  • 基础 Moshi 模型:CC-BY-4.0

开发者可以:

  • 免费下载和使用
  • 本地部署运行
  • 进行二次开发和定制
  • 集成到商业应用中

获取方式

技术意义

PersonaPlex-7B-v1 的发布标志着语音 AI 交互的重要突破:

  1. 架构革新:从级联流程到端到端统一处理
  2. 交互自然:真正掌握”人类对话的呼吸感”
  3. 低门槛部署:开源模型降低了构建自然对话式 Agent 的技术与成本门槛
  4. 应用广泛:适用于实时翻译、沉浸式游戏 NPC、高级车载助手等多个领域

NVIDIA 通过开源 PersonaPlex,为语音 AI 领域提供了一个可本地化部署的、具有商业可行性的解决方案,推动了下一代人机交互界面的发展。

相关链接