THUDM Open Sources New Image Generation Models: CogView3 et CogView-3Plus
THUDM a récemment ouvert le code source de ses derniers modèles de génération d’images CogView3 et CogView-3Plus-3B sur GitHub. Ces deux modèles représentent les dernières avancées dans le domaine de la génération d’images à partir de texte, démontrant des performances et une efficacité impressionnantes.
CogView3 : Innovation dans la Diffusion en Cascade
CogView3 est un système de génération d’images à partir de texte basé sur la diffusion en cascade. Il utilise un cadre novateur appelé “diffusion relais”, qui décompose le processus de génération d’images haute résolution en plusieurs étapes. Grâce au processus de super-résolution relais, le système génère d’abord des images basse résolution, puis leur ajoute du bruit gaussien, et commence un nouveau processus de diffusion à partir de ces images bruitées.
Selon les recherches de THUDM, CogView3 surpasse SDXL dans les évaluations humaines avec un taux de réussite allant jusqu’à 77,0%. Plus surprenant encore, le temps de génération de CogView3 n’est qu’un dixième de celui de SDXL, ce qui a des implications significatives pour les applications pratiques.
CogView-3Plus-3B : Modèle DiT Léger
En parallèle de CogView3, THUDM a également ouvert le code source de CogView-3Plus-3B, un modèle de génération d’images basé sur l’architecture DiT (Diffusion Transformer). Le modèle DiT combine les avantages des modèles de diffusion et des Transformers, démontrant des performances puissantes dans les tâches de génération d’images.
En tant que modèle relativement léger (avec seulement 3 milliards de paramètres), CogView-3Plus-3B vise à offrir des vitesses d’inférence plus rapides et des exigences en ressources plus faibles tout en maintenant une sortie de haute qualité.
Contribution Open Source
En ouvrant le code source de CogView3 et CogView-3Plus-3B, THUDM fournit non seulement des ressources précieuses pour la communauté de recherche, mais offre également des possibilités aux développeurs et aux entreprises d’intégrer des technologies avancées de génération d’images dans des applications pratiques. L’ouverture du code source de ces deux modèles contribuera à faire progresser la technologie de génération d’images à partir de texte et ses applications.
Perspectives d’Avenir
Avec l’ouverture du code source de CogView3 et CogView-3Plus-3B, nous pouvons nous attendre à voir plus d’applications innovantes basées sur ces modèles. De la conception créative à la génération de contenu en passant par les outils d’aide visuelle, ces modèles ont un large éventail de scénarios d’application potentiels.
En même temps, cela fournit également des références précieuses pour d’autres équipes de recherche, potentiellement inspirant plus d’innovations et de percées dans le domaine de la génération d’images.
Liens de Référence
- Référentiel GitHub de CogView3 : https://github.com/THUDM/CogView3