OpenMOSS lanza MOVA - modelo de generación sincronizada de video y audio de código abierto
29/01/2026
NVIDIA lanza PersonaPlex-7B-v1 - Modelo de diálogo de voz full-duplex
El 20 de enero de 2026, NVIDIA Research lanzó oficialmente PersonaPlex-7B-v1, un modelo de diálogo de voz full-duplex de 7 mil millones de parámetros basado en arquitectura Moshi. El modelo abandona el pipeline en cascada tradicional ASR→LLM→TTS, adoptando una arquitectura Transformer unificada que procesa síncronamente comprensión y generación de voz dentro de una sola red, soportando interrupciones naturales, voz superpuesta, toma de turnos rápida y retrocanales conscientes del contexto.
Innovación principal
Interacción en tiempo real full-duplex
El mayor avance de PersonaPlex-7B-v1 radica en lograr verdadera capacidad de diálogo Full Duplex (dúplex completo):
- Escuchar mientras habla: El modelo puede escuchar simultáneamente la entrada del usuario y generar respuestas
- Interrupciones naturales: Soporta que los usuarios interrumpan el habla de la IA en cualquier momento
- Retroalimentación instantánea: Puede producir retrocanales como “uh-huh” y “correcto”
- Ritmo auténtico: Simula pausas naturales y cambios de entonación en la conversación humana
La IA de voz tradicional usa un proceso rígido de tres etapas (reconocimiento de voz → procesamiento de modelo de lenguaje grande → síntesis de voz). Este modo de relevo “escuchar-pensar-hablar”, aunque funcional, siempre carece de sensación de interacción natural, convirtiendo el diálogo en combate mecánico por turnos.
PersonaPlex-7B-v1 procesa tokens de audio continuos a través de arquitectura Transformer de doble flujo, logrando generación paralela de texto y voz sin transferencias de tareas ni pausas forzadas.
Respuesta de latencia ultra baja
En pruebas de rendimiento, PersonaPlex-7B-v1 sobresale:
- Tasa de toma de turnos: 90.8%
- Latencia de respuesta a interrupciones: Tan baja como 240 milisegundos
- Tiempo hasta el primer token (TTFT): Aproximadamente 170 milisegundos
Estas métricas superan significativamente los sistemas de código abierto y comerciales existentes, proporcionando a los usuarios una experiencia fluida cercana a la conversación humana real.
Mecanismo de prompting híbrido
PersonaPlex logra control preciso de roles a través de un innovador mecanismo de prompting híbrido:
Prompt de voz (Voice Prompt)
- Define timbre y prosodia
- Controla velocidad de habla y expresión emocional
- Logra clonación de voz de alta fidelidad con solo segundos de muestras de audio
Prompt de texto (Text Prompt)
- Establece identidad de rol y escenarios de negocio
- Define antecedentes de conocimiento y estilo de comportamiento
- Puede incluir información estructurada como nombres y organizaciones
Prompt de sistema (System Prompt)
- Proporciona información contextual
- Establece reglas de diálogo
- Define objetivos de tareas
Este sistema de prompting multidimensional permite que PersonaPlex se adapte flexiblemente a varios escenarios de aplicación, desde tutores profesionales hasta representantes de servicio al cliente, desde personajes virtuales creativos hasta soporte técnico.
Arquitectura técnica
Arquitectura unificada basada en Moshi
PersonaPlex-7B-v1 está construido sobre arquitectura Moshi, usando modelado de extremo a extremo:
- Codificador de voz Mimi (ConvNet + Transformer): Mapea audio crudo a tokens de texto discretos
- Temporal Transformer: Modela el ritmo conversacional en la dimensión temporal (cuándo interrumpir, cuándo esperar)
- Depth Transformer: Análisis profundo de intención semántica y estrategias de comportamiento
- Decodificador de voz Mimi (Transformer + ConvNet): Restaura secuencias de tokens a voz de alta fidelidad
La tasa de muestreo de audio alcanza 24kHz, asegurando salida de voz de alta calidad.
Modelo de lenguaje subyacente: Helium
PersonaPlex usa Helium como modelo de lenguaje subyacente, proporcionando:
- Capacidad de comprensión semántica
- Capacidad de generalización a escenarios fuera de distribución
- Modelado de contexto poderoso
Datos de entrenamiento
Los datos de entrenamiento de PersonaPlex fusionan conversaciones reales con corpus sintéticos de alta calidad:
Datos de conversación real
- Fuente: Corpus Fisher English
- Escala: 7,303 conversaciones, totalizando 1,217 horas
- Procesamiento: Retro-anotado con prompts usando GPT-OSS-120B
Datos de conversación sintética
Escenarios de asistente de enseñanza
- Escala: 39,322 conversaciones, 410 horas
- Generación: Qwen3-32B y GPT-OSS-120B generan texto, Chatterbox TTS sintetiza voz
Escenarios de servicio al cliente
- Escala: 105,410 conversaciones, 1,840 horas
- Dominios: Cubre múltiples dominios verticales incluyendo educación, salud y finanzas
Esta estrategia de entrenamiento híbrido asegura que el modelo tenga tanto autenticidad como capacidad de generalización.
Rendimiento
En pruebas de benchmark autorizadas, PersonaPlex-7B-v1 tiene un rendimiento excelente:
Dinámica conversacional (FullDuplexBench)
- PersonaPlex: 90.8
- Moshi: 95.06
- Freeze Omni: 60.68
- Qwen 2.5 Omni: 86.53
Latencia de respuesta
- PersonaPlex: 0.170 segundos
- Moshi: 0.240 segundos
- Freeze Omni: 0.205 segundos
- Qwen 2.5 Omni: 0.953 segundos
Adherencia a tareas
- PersonaPlex: 4.29
- Moshi: 4.40
- Freeze Omni: 4.34
- Qwen 2.5 Omni: 3.62
Escenarios de aplicación
PersonaPlex-7B-v1 es adecuado para varios escenarios:
Asistencia educativa inteligente
Actúa como maestro personalizado, explicando puntos de conocimiento con lógica clara y expresión vívida, estimulando el interés por aprender y adaptándose a estudiantes de diferentes niveles cognitivos.
Servicio al cliente inteligente
Competente en posiciones de primera línea en banca, telecomunicaciones, seguros y otras industrias, proporcionando consultoría profesional basada en las necesidades del cliente mientras mantiene una actitud de servicio paciente y profesional.
Juego de roles y juegos
Interpreta varios roles en juegos o escenarios de simulación, proporcionando experiencias interactivas inmersivas.
Compañeros virtuales
Proporciona compañía conversacional diaria, capaz de entender emociones y proporcionar retroalimentación emocional apropiada.
Escenarios profesionales
Como gestión de emergencias espaciales y otros escenarios especiales, capaz de proporcionar orientación profesional con tonos emocionales apropiados.
Código abierto y disponibilidad
PersonaPlex-7B-v1 es completamente de código abierto con licencias amigables:
- Código: MIT License
- Pesos del modelo: NVIDIA Open Model License
- Modelo base Moshi: CC-BY-4.0
Los desarrolladores pueden:
- Descargar y usar gratis
- Implementar y ejecutar localmente
- Realizar desarrollo secundario y personalización
- Integrar en aplicaciones comerciales
Acceso
- HuggingFace: https://huggingface.co/nvidia/personaplex-7b-v1
- GitHub: https://github.com/nvidia/personaplex
- Página de investigación: https://research.nvidia.com/labs/adlr/personaplex/
Significado técnico
El lanzamiento de PersonaPlex-7B-v1 marca un avance importante en la interacción de IA de voz:
- Innovación arquitectónica: Del pipeline en cascada al procesamiento unificado de extremo a extremo
- Interacción natural: Dominio verdadero del “ritmo respiratorio de la conversación humana”
- Implementación de baja barrera: El modelo de código abierto reduce las barreras técnicas y de costo para construir agentes conversacionales naturales
- Aplicaciones amplias: Adecuado para traducción en tiempo real, NPCs de juegos inmersivos, asistentes avanzados de vehículos y otros dominios
Al publicar PersonaPlex como código abierto, NVIDIA proporciona una solución implementable localmente y comercialmente viable para el campo de IA de voz, impulsando el desarrollo de interfaces de interacción humano-computadora de próxima generación.
Enlaces relacionados
- Modelo HuggingFace: https://huggingface.co/nvidia/personaplex-7b-v1
- Repositorio GitHub: https://github.com/nvidia/personaplex
- Página de inicio de investigación: https://research.nvidia.com/labs/adlr/personaplex/