Skip to content
ComfyUI Wiki
Помогите создать лучшую базу знаний ComfyUI Стать спонсором
НовостиNari Labs выпускает модель Dia 1.6B для преобразования текста в диалоговую речь

Nari Labs выпускает модель Dia 1.6B для преобразования текста в диалоговую речь

Баннер Dia

Nari Labs недавно выпустила модель преобразования текста в речь (TTS) с открытым исходным кодом под названием Dia. В отличие от традиционных моделей TTS, Dia - это модель с 1.6B параметрами, специально разработанная для генерации диалогов, способная производить высокореалистичные многохарактерные разговоры напрямую из текстовых скриптов.

Ключевые особенности

Модель Dia предлагает следующие особенности:

  • Генерирует многохарактерные диалоги из одного текстового скрипта
  • Обеспечивает контроль эмоций и тона через аудио кондиционирование
  • Производит невербальные коммуникации, такие как смех, кашель, прочистка горла и другие естественные голосовые выражения
  • Предоставляет веса с открытым исходным кодом и код вывода для исследований и применений

В настоящее время модель Dia поддерживает только генерацию английской речи.

Попробуйте онлайн

Вы можете испытать модель Dia напрямую через Hugging Face space ниже:

Демо Nari Dia 1.6B

Как использовать

Использование Dia для генерации диалогов простое. Вам просто нужно отформатировать ваш диалоговый текст следующим образом:

  • Используйте теги [S1] и [S2] для различения различных говорящих
  • Размещайте невербальные выражения в скобках, такие как (смеется), (кашляет) и т.д.
  • Клонирование голоса возможно путем предоставления аудио образцов

Модель генерирует различные голоса с каждым запуском, но вы можете поддерживать согласованность голоса, добавляя аудио промпты или фиксируя случайное зерно.

Требования к оборудованию

Модель Dia в настоящее время поддерживает только вывод на GPU (требует PyTorch 2.0+ и CUDA 12.6) и может достигать 2x скорости генерации в реальном времени на RTX 4090. Команда планирует добавить поддержку CPU и квантизированные версии в будущем.

Связанные ссылки

Модель Dia была разработана Nari Labs, где “Nari” - это корейское слово для лилии. Команда состоит из одного полного и одного частичного исследовательского инженера и получила поддержку вычислительных ресурсов от программы Google TPU Research Cloud.