Aucun article pour le moment. Revenez plus tard !
Nouvelle percée en génération d’images open source : CogView4 officiellement publié
L’équipe de recherche THUDM a officiellement ouvert le code source du modèle CogView4, premier modèle de Transformateur de diffusion (DiT) open source prenant en charge nativement les invites en chinois et capable de générer des caractères chinois dans les images. Sur le benchmark DPG-Bench, le modèle a obtenu un score global de 85.13, se classant premier.
Fonctionnalités clés
Capacité bilingue
- Encodeur de texte GLM-4 amélioré pour les entrées chinois/anglais
- Base d’entraînement contenant des millions de paires image-texte bilingues
- Score F1 de 61.68% pour la génération de caractères chinois
Traitement intelligent du texte
- Support dynamique de longueur de texte (jusqu’à 1024 tokens)
- Réduction de 50% des calculs redondants
- Efficacité d’entraînement améliorée jusqu’à 30%
Résolution flexible
- Génération de 512px à 2048px
- Entraînement multi-résolution adaptatif
- Optimisation des ratios populaires (9:16, 1:1, 4:3)
Avantages techniques
Architecture innovante de “diffusion en relais” :
- Phase de base : Construction rapide de contours basse résolution
- Phase de super-résolution : Détails raffinés par technologie flow-matching
- Planification dynamique du bruit : Optimisation vitesse/qualité
Performances benchmark :
- Score DPG-Bench 85.13 vs SDXL (74.65) et DALL-E 3 (83.50)
- Capacité de génération de scènes complexes : 0.3869 sur T2I-CompBench
- Précision des caractères chinois améliorée de 114%
Configuration matérielle
Optimisations multi-niveaux :
- Mode base : Fonctionne sur RTX 3090 (512x512)
- Optimisation mémoire : Réduction à 13 Go de VRAM
- Quantification 4bit : Compression de l’encodeur de texte
Comment utiliser
Disponible via :
- Démo en ligne sur HuggingFace Spaces
- API simple avec :
- Entrées multilingues
- Tailles personnalisables
- Génération par lots
Ressources
L’équipe prévoit le déploiement de modules ControlNet, support ComfyUI et outils de fine-tuning dans les 3 prochains mois.