Skip to content
Aidez à Construire une Meilleure Base de Connaissances ComfyUI Devenir Parrain
ActualitésSesame présente le modèle vocal CSM pour des conversations naturelles
Aucun article pour le moment. Revenez plus tard !

Architecture CSM

Sesame Research a présenté son modèle de conversation vocale CSM lors d’une démo officielle, démontrant des capacités d’interaction vocale révolutionnaires. L’architecture double Transformer permet des échanges vocaux quasi-humains.

Architecture technique

Caractéristiques clés du CSM :

  • Traitement en deux étapes : Réseau principal multimodal (texte/voix) + décodeur audio
  • Tokeniseur RVQ : Encodeur de quantification Mimi à 12.5 Hz
  • Mode de latence optimisée : Résout les délais de génération RVQ traditionnels
  • Calcul distribué : Échantillonnage 1/16 pour l’efficacité
  • Structure Llama : Réseau principal basé sur LLaMA

Fonctionnalités principales

  1. Conscience contextuelle : Mémoire de conversation de 2 minutes (2048 tokens)
  2. Intelligence émotionnelle : Analyse des émotions via classificateur à 6 couches
  3. Temps réel : Latence < 500 ms (moyenne 380 ms)
  4. Multi-locuteurs : Gestion simultanée de plusieurs voix

Spécifications techniques

ParamètreDétails
Données d’entraînement1 million d’heures de conversations
Taille du modèle8B backbone + 300M décodeur
Longueur de séquence2048 tokens (~2 minutes)
Matériel requisRTX 4090 ou supérieur

État de l’open source

Repo GitHub contient :

  • Livre blanc complet
  • Exemples d’API REST
  • Kit de prétraitement audio
  • Guide de déploiement quantifié

⚠️ Limitations :

  • Code d’entraînement non publié (prévu Q3 2025)
  • Clé API requise
  • Priorité aux scénarios anglophones

Résultats d’évaluation

D’après le rapport officiel :

  • Naturalité : Score CMOS équivalent aux enregistrements humains
  • Compréhension contextuelle : +37% de précision
  • Cohérence phonétique : 95% de stabilité
  • Latence : Temps de génération initial réduit de 68%

Sources : Article de rechercheX