Skip to content
Ayuda a Construir una Mejor Base de Conocimientos de ComfyUI Conviértete en Patrocinador
NoticiasNari Labs lanza Dia 1.6B, modelo de síntesis de diálogos a partir de texto

Nari Labs lanza Dia 1.6B, modelo de síntesis de diálogos a partir de texto

Dia Banner

Nari Labs ha lanzado recientemente un modelo de texto a voz (TTS) de código abierto llamado Dia. A diferencia de los modelos TTS convencionales, Dia es un modelo de 1.6B parámetros diseñado específicamente para la generación de diálogos, capaz de producir conversaciones altamente realistas con múltiples personajes directamente desde guiones de texto.

Características principales

El modelo Dia ofrece las siguientes características:

  • Genera diálogos con múltiples personajes a partir de un solo guión de texto
  • Permite control de emociones y tono mediante condicionamiento por audio
  • Produce comunicaciones no verbales como risas, tos, aclaración de garganta y otras expresiones vocales naturales
  • Proporciona pesos de código abierto y código de inferencia para investigación y aplicaciones

Actualmente, el modelo Dia solo admite la generación de voz en inglés.

Pruébalo en línea

Puedes experimentar con el modelo Dia directamente a través del espacio de Hugging Face a continuación:

Nari Dia 1.6B Demo

Cómo utilizarlo

Usar Dia para generar diálogos es sencillo. Solo necesitas formatear tu texto de diálogo de la siguiente manera:

  • Usa las etiquetas [S1] y [S2] para distinguir diferentes hablantes
  • Coloca expresiones no verbales entre paréntesis, como (laughs), (coughs), etc.
  • Es posible clonar voces proporcionando muestras de audio

El modelo genera voces diferentes en cada ejecución, pero puedes mantener la consistencia de la voz añadiendo indicaciones de audio o fijando la semilla aleatoria.

Requisitos de hardware

El modelo Dia actualmente solo admite inferencia en GPU (requiere PyTorch 2.0+ y CUDA 12.6) y puede alcanzar una velocidad de generación 2 veces mayor que en tiempo real en una RTX 4090. El equipo planea añadir soporte para CPU y versiones cuantizadas en el futuro.

Enlaces relacionados

El modelo Dia fue desarrollado por Nari Labs, donde “Nari” es la palabra coreana para lirio. El equipo está formado por un ingeniero de investigación a tiempo completo y otro a tiempo parcial, y recibió apoyo de recursos computacionales del programa Google TPU Research Cloud.