Black Forest Labs выпускает открытую версию FLUX.1 Krea [dev] с нативной поддержкой ComfyUI
31.07.2025
Nari Labs выпускает модель Dia 1.6B для преобразования текста в диалоговую речь
Nari Labs недавно выпустила модель преобразования текста в речь (TTS) с открытым исходным кодом под названием Dia. В отличие от традиционных моделей TTS, Dia - это модель с 1.6B параметрами, специально разработанная для генерации диалогов, способная производить высокореалистичные многохарактерные разговоры напрямую из текстовых скриптов.
Ключевые особенности
Модель Dia предлагает следующие особенности:
- Генерирует многохарактерные диалоги из одного текстового скрипта
- Обеспечивает контроль эмоций и тона через аудио кондиционирование
- Производит невербальные коммуникации, такие как смех, кашель, прочистка горла и другие естественные голосовые выражения
- Предоставляет веса с открытым исходным кодом и код вывода для исследований и применений
В настоящее время модель Dia поддерживает только генерацию английской речи.
Попробуйте онлайн
Вы можете испытать модель Dia напрямую через Hugging Face space ниже:
Как использовать
Использование Dia для генерации диалогов простое. Вам просто нужно отформатировать ваш диалоговый текст следующим образом:
- Используйте теги
[S1]
и[S2]
для различения различных говорящих - Размещайте невербальные выражения в скобках, такие как
(смеется)
,(кашляет)
и т.д. - Клонирование голоса возможно путем предоставления аудио образцов
Модель генерирует различные голоса с каждым запуском, но вы можете поддерживать согласованность голоса, добавляя аудио промпты или фиксируя случайное зерно.
Требования к оборудованию
Модель Dia в настоящее время поддерживает только вывод на GPU (требует PyTorch 2.0+ и CUDA 12.6) и может достигать 2x скорости генерации в реальном времени на RTX 4090. Команда планирует добавить поддержку CPU и квантизированные версии в будущем.
Связанные ссылки
Модель Dia была разработана Nari Labs, где “Nari” - это корейское слово для лилии. Команда состоит из одного полного и одного частичного исследовательского инженера и получила поддержку вычислительных ресурсов от программы Google TPU Research Cloud.