Step1X-Edit : Cadre d’édition d’images IA open source
Step1X-Edit est un nouveau cadre d’édition d’images open source qui utilise des modèles de langage multimodaux pour traiter les images de référence et les instructions d’édition de l’utilisateur, en extrayant des embeddings latents et en les intégrant à un décodeur d’image par diffusion pour obtenir l’image cible. Ce projet vise à offrir des performances comparables aux modèles propriétaires comme GPT-4o et Gemini2 Flash.
Caractéristiques principales
- Édition en langage naturel : Prend en charge l’édition d’images via des instructions en langage naturel, comme “embellir”, “changer l’arrière-plan” ou “convertir en style pixel art”
- Open source et utilisation commerciale : Publié sous licence Apache 2.0, libre d’utilisation commerciale
- Exigences matérielles flexibles : Propose une version quantifiée FP8 pour réduire les besoins en mémoire
- Support communautaire : Dispose déjà de plusieurs versions communautaires, y compris des modèles quantifiés FP8
Spécifications techniques
Step1X-Edit propose plusieurs versions pour s’adapter à différentes configurations matérielles :
Version du modèle | Mémoire GPU maximale (résolution 512/786/1024) | Temps de génération en 28 étapes (secondes) |
---|---|---|
Standard | 42.5GB / 46.5GB / 49.8GB | 5s / 11s / 22s |
Quantifié FP8 | 31GB / 31.5GB / 34GB | 6.8s / 13.5s / 25s |
Standard+déchargement CPU | 25.9GB / 27.3GB / 29.1GB | 49.6s / 54.1s / 63.2s |
Quantifié FP8+déchargement CPU | 18GB / 18GB / 18GB | 35s / 40s / 51s |
Bien que l’utilisation d’un GPU avec 80 Go de mémoire soit officiellement recommandée pour obtenir les meilleures performances et efficacité, Step1X-Edit peut également fonctionner sur des cartes graphiques ayant moins de mémoire grâce à la quantification FP8 et à la technologie de déchargement CPU.
Démonstration en ligne
Vous pouvez essayer directement Step1X-Edit via le lien suivant :
Plans futurs
L’équipe Step1X-Edit a déjà achevé :
- Publication du code d’inférence et des poids du modèle
- Démo en ligne (Gradio)
- Poids quantifiés FP8
Les fonctionnalités prévues comprennent :
- Intégration à Diffusers
- Intégration à ComfyUI
Liens associés
- Page du projet GitHub
- Modèle sur HuggingFace
- Modèle quantifié FP8
- Modèle sur ModelScope
- Rapport technique (arXiv)
- Ensemble de données d’évaluation GEdit-Bench
La publication de ce projet open source permettra à davantage d’utilisateurs d’accéder à des fonctionnalités d’édition d’images IA de haute qualité sans dépendre de modèles propriétaires, tandis que sa nature commercialisable offre plus de possibilités aux développeurs.