Skip to content
Aidez à Construire une Meilleure Base de Connaissances ComfyUI Devenir Parrain
ActualitésTHUDM ouvre CogView4 - Modèle DiT de génération d'images prenant en charge le chinois natif
Aucun article pour le moment. Revenez plus tard !

Nouvelle percée en génération d’images open source : CogView4 officiellement publié

Démonstration des résultats de CogView4

L’équipe de recherche THUDM a officiellement ouvert le code source du modèle CogView4, premier modèle de Transformateur de diffusion (DiT) open source prenant en charge nativement les invites en chinois et capable de générer des caractères chinois dans les images. Sur le benchmark DPG-Bench, le modèle a obtenu un score global de 85.13, se classant premier.

Fonctionnalités clés

Capacité bilingue

  • Encodeur de texte GLM-4 amélioré pour les entrées chinois/anglais
  • Base d’entraînement contenant des millions de paires image-texte bilingues
  • Score F1 de 61.68% pour la génération de caractères chinois

Traitement intelligent du texte

  • Support dynamique de longueur de texte (jusqu’à 1024 tokens)
  • Réduction de 50% des calculs redondants
  • Efficacité d’entraînement améliorée jusqu’à 30%

Résolution flexible

  • Génération de 512px à 2048px
  • Entraînement multi-résolution adaptatif
  • Optimisation des ratios populaires (9:16, 1:1, 4:3)

Avantages techniques

Architecture innovante de “diffusion en relais” :

  1. Phase de base : Construction rapide de contours basse résolution
  2. Phase de super-résolution : Détails raffinés par technologie flow-matching
  3. Planification dynamique du bruit : Optimisation vitesse/qualité

Performances benchmark :

  • Score DPG-Bench 85.13 vs SDXL (74.65) et DALL-E 3 (83.50)
  • Capacité de génération de scènes complexes : 0.3869 sur T2I-CompBench
  • Précision des caractères chinois améliorée de 114%

Configuration matérielle

Optimisations multi-niveaux :

  • Mode base : Fonctionne sur RTX 3090 (512x512)
  • Optimisation mémoire : Réduction à 13 Go de VRAM
  • Quantification 4bit : Compression de l’encodeur de texte

Comment utiliser

Disponible via :

  • Démo en ligne sur HuggingFace Spaces
  • API simple avec :
    • Entrées multilingues
    • Tailles personnalisables
    • Génération par lots

Ressources

L’équipe prévoit le déploiement de modules ControlNet, support ComfyUI et outils de fine-tuning dans les 3 prochains mois.