PixelFlow : Des Modèles Génératifs Travaillant Directement dans l’Espace des Pixels
Des chercheurs de l’Université de Hong Kong et d’Adobe ont conjointement développé PixelFlow, une famille de modèles de génération d’images qui travaillent directement dans l’espace brut des pixels. Contrairement aux modèles d’espace latent actuellement dominants, PixelFlow adopte une approche entièrement nouvelle pour la génération d’images.
Caractéristiques Innovantes
L’innovation la plus significative de PixelFlow est qu’il opère directement dans l’espace brut des pixels, plutôt que dans l’espace latent comme la plupart des modèles conventionnels. Cette approche simplifie le processus de génération d’images avec les avantages suivants :
- Aucune dépendance aux Auto-encodeurs Variationnels (VAE) préentraînés
- Prise en charge de l’entraînement de bout en bout du modèle entier
- Réalisation d’un coût computationnel abordable dans l’espace des pixels grâce à une modélisation efficace de flux en cascade
Dans le benchmark de génération d’images conditionnées par classe ImageNet 256x256, PixelFlow a atteint un score FID de 1,98, tandis que les résultats de texte à image démontrent son excellence en matière de qualité d’image, d’expression artistique et de contrôle sémantique.
Démonstration en Ligne
L’équipe PixelFlow propose une démonstration en ligne sur HuggingFace pour permettre aux utilisateurs d’expérimenter les capacités de génération d’images du modèle : https://huggingface.co/spaces/ShoufaChen/PixelFlow
Bibliothèque de Modèles
PixelFlow propose actuellement deux modèles :
- Modèle de classe à image : 677M paramètres, score FID de 1,98
- Modèle de texte à image : 882M paramètres
Les informations détaillées sur ces deux modèles sont les suivantes :
Nom du Modèle | Tâche | Paramètres | FID | Poids du Modèle |
---|---|---|---|---|
PixelFlow | Classe à image | 677M | 1,98 | 🤗 |
PixelFlow | Texte à image | 882M | N/A | 🤗 |
Les deux modèles sont disponibles sur la plateforme HuggingFace.
Perspectives d’Avenir
L’équipe de recherche espère que ce nouveau paradigme inspirera et ouvrira de nouvelles opportunités pour les modèles de génération visuelle de prochaine génération. L’approche de PixelFlow pourrait abaisser le seuil de développement pour les modèles génératifs, inspirant des méthodes de génération d’images plus efficaces et légères.