Skip to content
ComfyUI Wiki
Помогите создать лучшую базу знаний ComfyUI Стать спонсором
НовостиSesame представляет голосовую модель CSM для естественных разговоров

CSM Architecture Diagram

Модель разговорной речи (CSM) от Sesame Research демонстрирует прорывные возможности в официальной демонстрации. Двухтрансформерная архитектура обеспечивает почти человеческое голосовое взаимодействие.

Техническая архитектура

Ключевые особенности дизайна:

  • Двухэтапная обработка: Мультимодальная основа (текст/речь) + аудио декодер
  • RVQ токенизатор: Дискретный квантизатор Mimi с частотой кадров 12.5Гц
  • Оптимизация задержки: Решает традиционные задержки генерации RVQ
  • Планирование вычислений: 1/16 сэмплирование кадров для эффективности
  • Фреймворк Llama: Базовая сеть на основе LLaMA

Ключевые особенности

  1. Осведомленность о контексте: 2-минутная память разговора (2048 токенов)
  2. Эмоциональный интеллект: 6-слойный классификатор эмоций
  3. Интеракция в реальном времени: < 500мс сквозная задержка (средняя 380мс)
  4. Поддержка множественных говорящих: Одновременная обработка голоса

Технические спецификации

ПараметрДетали
Данные обучения1M часов английских разговоров
Масштаб модели8B основа + 300M декодер
Длина последовательности2048 токенов (~2 минуты)
Поддержка оборудованияRTX 4090 или выше

Статус открытого исходного кода

Репозиторий GitHub включает:

  • Полный технический документ архитектуры
  • Примеры REST API
  • Инструментарий предварительной обработки аудио
  • Руководство по квантизации модели

⚠️ Ограничения:

  • Основной код обучения не выпущен (планируется Q3 2025)
  • Требуется API ключ
  • Реализация в первую очередь на английском

Результаты оценки

Официальные бенчмарки показывают:

  • Естественность: CMOS оценка соответствует человеческим записям
  • Понимание контекста: 37% улучшение точности
  • Согласованность произношения: 95% стабильность
  • Задержка: 68% улучшение генерации первого кадра

Технические источники: Исследовательская статья | X