OpenMOSS выпускает MOVA - модель синхронизированной генерации видео и аудио с открытым исходным кодом

29.01.2026

NVIDIA выпускает PersonaPlex-7B-v1 - модель полнодуплексного голосового диалога

20 января 2026 года NVIDIA Research официально запустила PersonaPlex-7B-v1, модель полнодуплексного голосового диалога с 7 миллиардами параметров на основе архитектуры Moshi. Модель отказывается от традиционного каскадного конвейера ASR→LLM→TTS, принимая унифицированную архитектуру Transformer, которая синхронно обрабатывает понимание и генерацию речи в одной сети, поддерживая естественные прерывания, перекрывающуюся речь, быструю смену ходов и контекстно-зависимые обратные каналы.

Основная инновация

Взаимодействие в реальном времени полного дуплекса

Самый большой прорыв PersonaPlex-7B-v1 заключается в достижении истинной способности диалога Full Duplex (полный дуплекс):

Слушать во время речи: Модель может одновременно слушать ввод пользователя и генерировать ответы
Естественные прерывания: Поддерживает прерывание речи AI пользователями в любое время
Мгновенная обратная связь: Может производить обратные каналы, такие как “ага” и “точно”
Аутентичный ритм: Имитирует естественные паузы и изменения интонации в человеческом разговоре

Традиционный голосовой AI использует жесткий трехэтапный процесс (распознавание речи → обработка большой языковой модели → синтез речи). Этот режим эстафеты “слушать-думать-говорить”, хотя и функциональный, всегда не хватает ощущения естественного взаимодействия, превращая диалог в механический пошаговый бой.

PersonaPlex-7B-v1 обрабатывает непрерывные аудио токены через архитектуру Transformer с двойным потоком, достигая параллельной генерации текста и речи без передачи задач или принудительных пауз.

Ответ со сверхнизкой задержкой

В тестах производительности PersonaPlex-7B-v1 превосходен:

Коэффициент смены ходов: 90.8%
Задержка ответа на прерывание: Всего 240 миллисекунд
Время до первого токена (TTFT): Примерно 170 миллисекунд

Эти метрики значительно превосходят существующие системы с открытым исходным кодом и коммерческие системы, обеспечивая пользователям плавный опыт, близкий к реальному человеческому разговору.

Механизм гибридного промптинга

PersonaPlex достигает точного контроля ролей через инновационный механизм гибридного промптинга:

Голосовой промпт (Voice Prompt)

Определяет тембр и просодию
Контролирует скорость речи и эмоциональное выражение
Достигает высокоточного клонирования голоса всего с несколькими секундами аудио образцов

Текстовый промпт (Text Prompt)

Устанавливает идентичность роли и бизнес-сценарии
Определяет фон знаний и стиль поведения
Может включать структурированную информацию, такую как имена и организации

Системный промпт (System Prompt)

Предоставляет контекстную информацию
Устанавливает правила диалога
Определяет цели задач

Эта многомерная система промптинга позволяет PersonaPlex гибко адаптироваться к различным сценариям применения, от профессиональных наставников до представителей службы поддержки клиентов, от креативных виртуальных персонажей до технической поддержки.

Техническая архитектура

Унифицированная архитектура на основе Moshi

PersonaPlex-7B-v1 построен на архитектуре Moshi, используя моделирование от начала до конца:

Речевой кодировщик Mimi (ConvNet + Transformer): Отображает сырое аудио в дискретные текстовые токены
Temporal Transformer: Моделирует ритм разговора во временном измерении (когда прерывать, когда ждать)
Depth Transformer: Глубокий анализ семантического намерения и поведенческих стратегий
Речевой декодер Mimi (Transformer + ConvNet): Восстанавливает последовательности токенов в высокоточную речь

Частота дискретизации аудио достигает 24кГц, обеспечивая высококачественный голосовой вывод.

Базовая языковая модель: Helium

PersonaPlex использует Helium в качестве базовой языковой модели, обеспечивая:

Способность семантического понимания
Способность обобщения к сценариям вне распределения
Мощное моделирование контекста

Данные обучения

Данные обучения PersonaPlex объединяют реальные разговоры с высококачественными синтетическими корпусами:

Данные реальных разговоров

Источник: Корпус Fisher English
Масштаб: 7,303 разговора, всего 1,217 часов
Обработка: Обратная аннотация с промптами с использованием GPT-OSS-120B

Данные синтетических разговоров

Сценарии помощника преподавателя

Масштаб: 39,322 разговора, 410 часов
Генерация: Qwen3-32B и GPT-OSS-120B генерируют текст, Chatterbox TTS синтезирует речь

Сценарии обслуживания клиентов

Масштаб: 105,410 разговоров, 1,840 часов
Области: Охватывает несколько вертикальных областей, включая образование, здравоохранение и финансы

Эта гибридная стратегия обучения обеспечивает, что модель имеет как аутентичность, так и способность обобщения.

Производительность

В авторитетных тестах бенчмарка PersonaPlex-7B-v1 имеет отличную производительность:

Динамика разговора (FullDuplexBench)

PersonaPlex: 90.8
Moshi: 95.06
Freeze Omni: 60.68
Qwen 2.5 Omni: 86.53

Задержка ответа

PersonaPlex: 0.170 секунд
Moshi: 0.240 секунд
Freeze Omni: 0.205 секунд
Qwen 2.5 Omni: 0.953 секунд

Соблюдение задач

PersonaPlex: 4.29
Moshi: 4.40
Freeze Omni: 4.34
Qwen 2.5 Omni: 3.62

Сценарии применения

PersonaPlex-7B-v1 подходит для различных сценариев:

Интеллектуальная образовательная помощь

Действует как персонализированный учитель, объясняя точки знаний с четкой логикой и живым выражением, стимулируя интерес к обучению и адаптируясь к студентам разных когнитивных уровней.

Интеллектуальное обслуживание клиентов

Компетентен на передовых позициях в банковском деле, телекоммуникациях, страховании и других отраслях, предоставляя профессиональные консультации на основе потребностей клиентов, сохраняя терпеливое и профессиональное отношение к обслуживанию.

Ролевые игры и игры

Играет различные роли в играх или сценариях симуляции, обеспечивая погружающий интерактивный опыт.

Виртуальные компаньоны

Обеспечивает ежедневное разговорное сопровождение, способный понимать эмоции и предоставлять соответствующую эмоциональную обратную связь.

Профессиональные сценарии

Такие как управление космическими чрезвычайными ситуациями и другие специальные сценарии, способный предоставлять профессиональное руководство с соответствующими эмоциональными тонами.

Открытый исходный код и доступность

PersonaPlex-7B-v1 полностью открыт с дружественными лицензиями:

Код: MIT License
Веса модели: NVIDIA Open Model License
Базовая модель Moshi: CC-BY-4.0

Разработчики могут:

Скачивать и использовать бесплатно
Развертывать и запускать локально
Выполнять вторичную разработку и кастомизацию
Интегрировать в коммерческие приложения

Доступ

HuggingFace: https://huggingface.co/nvidia/personaplex-7b-v1
GitHub: https://github.com/nvidia/personaplex
Страница исследований: https://research.nvidia.com/labs/adlr/personaplex/

Техническое значение

Выпуск PersonaPlex-7B-v1 знаменует важный прорыв во взаимодействии голосового AI:

Архитектурная инновация: От каскадного конвейера к унифицированной обработке от начала до конца
Естественное взаимодействие: Истинное овладение “дыхательным ритмом человеческого разговора”
Развертывание с низким барьером: Модель с открытым исходным кодом снижает технические и стоимостные барьеры для построения естественных разговорных агентов
Широкие приложения: Подходит для перевода в реальном времени, погружающих игровых NPC, продвинутых автомобильных помощников и других областей

Публикуя PersonaPlex в открытом доступе, NVIDIA предоставляет локально развертываемое и коммерчески жизнеспособное решение для области голосового AI, продвигая развитие интерфейсов взаимодействия человек-компьютер следующего поколения.

Связанные ссылки

Модель HuggingFace: https://huggingface.co/nvidia/personaplex-7b-v1
Репозиторий GitHub: https://github.com/nvidia/personaplex
Домашняя страница исследований: https://research.nvidia.com/labs/adlr/personaplex/