Skip to content
Follow me on X
ComfyUI Wiki
НовостиNVIDIA выпускает PersonaPlex-7B-v1 - модель полнодуплексного голосового диалога

NVIDIA выпускает PersonaPlex-7B-v1 - модель полнодуплексного голосового диалога

20 января 2026 года NVIDIA Research официально запустила PersonaPlex-7B-v1, модель полнодуплексного голосового диалога с 7 миллиардами параметров на основе архитектуры Moshi. Модель отказывается от традиционного каскадного конвейера ASR→LLM→TTS, принимая унифицированную архитектуру Transformer, которая синхронно обрабатывает понимание и генерацию речи в одной сети, поддерживая естественные прерывания, перекрывающуюся речь, быструю смену ходов и контекстно-зависимые обратные каналы.

Основная инновация

Взаимодействие в реальном времени полного дуплекса

Самый большой прорыв PersonaPlex-7B-v1 заключается в достижении истинной способности диалога Full Duplex (полный дуплекс):

  • Слушать во время речи: Модель может одновременно слушать ввод пользователя и генерировать ответы
  • Естественные прерывания: Поддерживает прерывание речи AI пользователями в любое время
  • Мгновенная обратная связь: Может производить обратные каналы, такие как “ага” и “точно”
  • Аутентичный ритм: Имитирует естественные паузы и изменения интонации в человеческом разговоре

Традиционный голосовой AI использует жесткий трехэтапный процесс (распознавание речи → обработка большой языковой модели → синтез речи). Этот режим эстафеты “слушать-думать-говорить”, хотя и функциональный, всегда не хватает ощущения естественного взаимодействия, превращая диалог в механический пошаговый бой.

PersonaPlex-7B-v1 обрабатывает непрерывные аудио токены через архитектуру Transformer с двойным потоком, достигая параллельной генерации текста и речи без передачи задач или принудительных пауз.

Ответ со сверхнизкой задержкой

В тестах производительности PersonaPlex-7B-v1 превосходен:

  • Коэффициент смены ходов: 90.8%
  • Задержка ответа на прерывание: Всего 240 миллисекунд
  • Время до первого токена (TTFT): Примерно 170 миллисекунд

Эти метрики значительно превосходят существующие системы с открытым исходным кодом и коммерческие системы, обеспечивая пользователям плавный опыт, близкий к реальному человеческому разговору.

Механизм гибридного промптинга

PersonaPlex достигает точного контроля ролей через инновационный механизм гибридного промптинга:

Голосовой промпт (Voice Prompt)

  • Определяет тембр и просодию
  • Контролирует скорость речи и эмоциональное выражение
  • Достигает высокоточного клонирования голоса всего с несколькими секундами аудио образцов

Текстовый промпт (Text Prompt)

  • Устанавливает идентичность роли и бизнес-сценарии
  • Определяет фон знаний и стиль поведения
  • Может включать структурированную информацию, такую как имена и организации

Системный промпт (System Prompt)

  • Предоставляет контекстную информацию
  • Устанавливает правила диалога
  • Определяет цели задач

Эта многомерная система промптинга позволяет PersonaPlex гибко адаптироваться к различным сценариям применения, от профессиональных наставников до представителей службы поддержки клиентов, от креативных виртуальных персонажей до технической поддержки.

Техническая архитектура

Унифицированная архитектура на основе Moshi

PersonaPlex-7B-v1 построен на архитектуре Moshi, используя моделирование от начала до конца:

  • Речевой кодировщик Mimi (ConvNet + Transformer): Отображает сырое аудио в дискретные текстовые токены
  • Temporal Transformer: Моделирует ритм разговора во временном измерении (когда прерывать, когда ждать)
  • Depth Transformer: Глубокий анализ семантического намерения и поведенческих стратегий
  • Речевой декодер Mimi (Transformer + ConvNet): Восстанавливает последовательности токенов в высокоточную речь

Частота дискретизации аудио достигает 24кГц, обеспечивая высококачественный голосовой вывод.

Базовая языковая модель: Helium

PersonaPlex использует Helium в качестве базовой языковой модели, обеспечивая:

  • Способность семантического понимания
  • Способность обобщения к сценариям вне распределения
  • Мощное моделирование контекста

Данные обучения

Данные обучения PersonaPlex объединяют реальные разговоры с высококачественными синтетическими корпусами:

Данные реальных разговоров

  • Источник: Корпус Fisher English
  • Масштаб: 7,303 разговора, всего 1,217 часов
  • Обработка: Обратная аннотация с промптами с использованием GPT-OSS-120B

Данные синтетических разговоров

Сценарии помощника преподавателя

  • Масштаб: 39,322 разговора, 410 часов
  • Генерация: Qwen3-32B и GPT-OSS-120B генерируют текст, Chatterbox TTS синтезирует речь

Сценарии обслуживания клиентов

  • Масштаб: 105,410 разговоров, 1,840 часов
  • Области: Охватывает несколько вертикальных областей, включая образование, здравоохранение и финансы

Эта гибридная стратегия обучения обеспечивает, что модель имеет как аутентичность, так и способность обобщения.

Производительность

В авторитетных тестах бенчмарка PersonaPlex-7B-v1 имеет отличную производительность:

Динамика разговора (FullDuplexBench)

  • PersonaPlex: 90.8
  • Moshi: 95.06
  • Freeze Omni: 60.68
  • Qwen 2.5 Omni: 86.53

Задержка ответа

  • PersonaPlex: 0.170 секунд
  • Moshi: 0.240 секунд
  • Freeze Omni: 0.205 секунд
  • Qwen 2.5 Omni: 0.953 секунд

Соблюдение задач

  • PersonaPlex: 4.29
  • Moshi: 4.40
  • Freeze Omni: 4.34
  • Qwen 2.5 Omni: 3.62

Сценарии применения

PersonaPlex-7B-v1 подходит для различных сценариев:

Интеллектуальная образовательная помощь

Действует как персонализированный учитель, объясняя точки знаний с четкой логикой и живым выражением, стимулируя интерес к обучению и адаптируясь к студентам разных когнитивных уровней.

Интеллектуальное обслуживание клиентов

Компетентен на передовых позициях в банковском деле, телекоммуникациях, страховании и других отраслях, предоставляя профессиональные консультации на основе потребностей клиентов, сохраняя терпеливое и профессиональное отношение к обслуживанию.

Ролевые игры и игры

Играет различные роли в играх или сценариях симуляции, обеспечивая погружающий интерактивный опыт.

Виртуальные компаньоны

Обеспечивает ежедневное разговорное сопровождение, способный понимать эмоции и предоставлять соответствующую эмоциональную обратную связь.

Профессиональные сценарии

Такие как управление космическими чрезвычайными ситуациями и другие специальные сценарии, способный предоставлять профессиональное руководство с соответствующими эмоциональными тонами.

Открытый исходный код и доступность

PersonaPlex-7B-v1 полностью открыт с дружественными лицензиями:

  • Код: MIT License
  • Веса модели: NVIDIA Open Model License
  • Базовая модель Moshi: CC-BY-4.0

Разработчики могут:

  • Скачивать и использовать бесплатно
  • Развертывать и запускать локально
  • Выполнять вторичную разработку и кастомизацию
  • Интегрировать в коммерческие приложения

Доступ

Техническое значение

Выпуск PersonaPlex-7B-v1 знаменует важный прорыв во взаимодействии голосового AI:

  1. Архитектурная инновация: От каскадного конвейера к унифицированной обработке от начала до конца
  2. Естественное взаимодействие: Истинное овладение “дыхательным ритмом человеческого разговора”
  3. Развертывание с низким барьером: Модель с открытым исходным кодом снижает технические и стоимостные барьеры для построения естественных разговорных агентов
  4. Широкие приложения: Подходит для перевода в реальном времени, погружающих игровых NPC, продвинутых автомобильных помощников и других областей

Публикуя PersonaPlex в открытом доступе, NVIDIA предоставляет локально развертываемое и коммерчески жизнеспособное решение для области голосового AI, продвигая развитие интерфейсов взаимодействия человек-компьютер следующего поколения.

Связанные ссылки