NVIDIA выпускает PersonaPlex-7B-v1 - модель полнодуплексного голосового диалога
20 января 2026 года NVIDIA Research официально запустила PersonaPlex-7B-v1, модель полнодуплексного голосового диалога с 7 миллиардами параметров на основе архитектуры Moshi. Модель отказывается от традиционного каскадного конвейера ASR→LLM→TTS, принимая унифицированную архитектуру Transformer, которая синхронно обрабатывает понимание и генерацию речи в одной сети, поддерживая естественные прерывания, перекрывающуюся речь, быструю смену ходов и контекстно-зависимые обратные каналы.
Основная инновация
Взаимодействие в реальном времени полного дуплекса
Самый большой прорыв PersonaPlex-7B-v1 заключается в достижении истинной способности диалога Full Duplex (полный дуплекс):
- Слушать во время речи: Модель может одновременно слушать ввод пользователя и генерировать ответы
- Естественные прерывания: Поддерживает прерывание речи AI пользователями в любое время
- Мгновенная обратная связь: Может производить обратные каналы, такие как “ага” и “точно”
- Аутентичный ритм: Имитирует естественные паузы и изменения интонации в человеческом разговоре
Традиционный голосовой AI использует жесткий трехэтапный процесс (распознавание речи → обработка большой языковой модели → синтез речи). Этот режим эстафеты “слушать-думать-говорить”, хотя и функциональный, всегда не хватает ощущения естественного взаимодействия, превращая диалог в механический пошаговый бой.
PersonaPlex-7B-v1 обрабатывает непрерывные аудио токены через архитектуру Transformer с двойным потоком, достигая параллельной генерации текста и речи без передачи задач или принудительных пауз.
Ответ со сверхнизкой задержкой
В тестах производительности PersonaPlex-7B-v1 превосходен:
- Коэффициент смены ходов: 90.8%
- Задержка ответа на прерывание: Всего 240 миллисекунд
- Время до первого токена (TTFT): Примерно 170 миллисекунд
Эти метрики значительно превосходят существующие системы с открытым исходным кодом и коммерческие системы, обеспечивая пользователям плавный опыт, близкий к реальному человеческому разговору.
Механизм гибридного промптинга
PersonaPlex достигает точного контроля ролей через инновационный механизм гибридного промптинга:
Голосовой промпт (Voice Prompt)
- Определяет тембр и просодию
- Контролирует скорость речи и эмоциональное выражение
- Достигает высокоточного клонирования голоса всего с несколькими секундами аудио образцов
Текстовый промпт (Text Prompt)
- Устанавливает идентичность роли и бизнес-сценарии
- Определяет фон знаний и стиль поведения
- Может включать структурированную информацию, такую как имена и организации
Системный промпт (System Prompt)
- Предоставляет контекстную информацию
- Устанавливает правила диалога
- Определяет цели задач
Эта многомерная система промптинга позволяет PersonaPlex гибко адаптироваться к различным сценариям применения, от профессиональных наставников до представителей службы поддержки клиентов, от креативных виртуальных персонажей до технической поддержки.
Техническая архитектура
Унифицированная архитектура на основе Moshi
PersonaPlex-7B-v1 построен на архитектуре Moshi, используя моделирование от начала до конца:
- Речевой кодировщик Mimi (ConvNet + Transformer): Отображает сырое аудио в дискретные текстовые токены
- Temporal Transformer: Моделирует ритм разговора во временном измерении (когда прерывать, когда ждать)
- Depth Transformer: Глубокий анализ семантического намерения и поведенческих стратегий
- Речевой декодер Mimi (Transformer + ConvNet): Восстанавливает последовательности токенов в высокоточную речь
Частота дискретизации аудио достигает 24кГц, обеспечивая высококачественный голосовой вывод.
Базовая языковая модель: Helium
PersonaPlex использует Helium в качестве базовой языковой модели, обеспечивая:
- Способность семантического понимания
- Способность обобщения к сценариям вне распределения
- Мощное моделирование контекста
Данные обучения
Данные обучения PersonaPlex объединяют реальные разговоры с высококачественными синтетическими корпусами:
Данные реальных разговоров
- Источник: Корпус Fisher English
- Масштаб: 7,303 разговора, всего 1,217 часов
- Обработка: Обратная аннотация с промптами с использованием GPT-OSS-120B
Данные синтетических разговоров
Сценарии помощника преподавателя
- Масштаб: 39,322 разговора, 410 часов
- Генерация: Qwen3-32B и GPT-OSS-120B генерируют текст, Chatterbox TTS синтезирует речь
Сценарии обслуживания клиентов
- Масштаб: 105,410 разговоров, 1,840 часов
- Области: Охватывает несколько вертикальных областей, включая образование, здравоохранение и финансы
Эта гибридная стратегия обучения обеспечивает, что модель имеет как аутентичность, так и способность обобщения.
Производительность
В авторитетных тестах бенчмарка PersonaPlex-7B-v1 имеет отличную производительность:
Динамика разговора (FullDuplexBench)
- PersonaPlex: 90.8
- Moshi: 95.06
- Freeze Omni: 60.68
- Qwen 2.5 Omni: 86.53
Задержка ответа
- PersonaPlex: 0.170 секунд
- Moshi: 0.240 секунд
- Freeze Omni: 0.205 секунд
- Qwen 2.5 Omni: 0.953 секунд
Соблюдение задач
- PersonaPlex: 4.29
- Moshi: 4.40
- Freeze Omni: 4.34
- Qwen 2.5 Omni: 3.62
Сценарии применения
PersonaPlex-7B-v1 подходит для различных сценариев:
Интеллектуальная образовательная помощь
Действует как персонализированный учитель, объясняя точки знаний с четкой логикой и живым выражением, стимулируя интерес к обучению и адаптируясь к студентам разных когнитивных уровней.
Интеллектуальное обслуживание клиентов
Компетентен на передовых позициях в банковском деле, телекоммуникациях, страховании и других отраслях, предоставляя профессиональные консультации на основе потребностей клиентов, сохраняя терпеливое и профессиональное отношение к обслуживанию.
Ролевые игры и игры
Играет различные роли в играх или сценариях симуляции, обеспечивая погружающий интерактивный опыт.
Виртуальные компаньоны
Обеспечивает ежедневное разговорное сопровождение, способный понимать эмоции и предоставлять соответствующую эмоциональную обратную связь.
Профессиональные сценарии
Такие как управление космическими чрезвычайными ситуациями и другие специальные сценарии, способный предоставлять профессиональное руководство с соответствующими эмоциональными тонами.
Открытый исходный код и доступность
PersonaPlex-7B-v1 полностью открыт с дружественными лицензиями:
- Код: MIT License
- Веса модели: NVIDIA Open Model License
- Базовая модель Moshi: CC-BY-4.0
Разработчики могут:
- Скачивать и использовать бесплатно
- Развертывать и запускать локально
- Выполнять вторичную разработку и кастомизацию
- Интегрировать в коммерческие приложения
Доступ
- HuggingFace: https://huggingface.co/nvidia/personaplex-7b-v1
- GitHub: https://github.com/nvidia/personaplex
- Страница исследований: https://research.nvidia.com/labs/adlr/personaplex/
Техническое значение
Выпуск PersonaPlex-7B-v1 знаменует важный прорыв во взаимодействии голосового AI:
- Архитектурная инновация: От каскадного конвейера к унифицированной обработке от начала до конца
- Естественное взаимодействие: Истинное овладение “дыхательным ритмом человеческого разговора”
- Развертывание с низким барьером: Модель с открытым исходным кодом снижает технические и стоимостные барьеры для построения естественных разговорных агентов
- Широкие приложения: Подходит для перевода в реальном времени, погружающих игровых NPC, продвинутых автомобильных помощников и других областей
Публикуя PersonaPlex в открытом доступе, NVIDIA предоставляет локально развертываемое и коммерчески жизнеспособное решение для области голосового AI, продвигая развитие интерфейсов взаимодействия человек-компьютер следующего поколения.
Связанные ссылки
- Модель HuggingFace: https://huggingface.co/nvidia/personaplex-7b-v1
- Репозиторий GitHub: https://github.com/nvidia/personaplex
- Домашняя страница исследований: https://research.nvidia.com/labs/adlr/personaplex/