Insert Anything : Cadre Open-Source pour l’Insertion Transparente d’Images
Insert Anything est un nouveau cadre d’édition d’images open-source développé conjointement par une équipe de recherche (Wensong Song, Hong Jiang, Zongxing Yang, Ruijie Quan, Yi Yang) de l’Université de Zhejiang, de l’Université Harvard et de l’Université Technologique de Nanyang. Ce cadre peut intégrer de manière transparente des objets provenant d’images de référence dans des scènes cibles sous un guidage de contrôle spécifié par l’utilisateur.
Ce cadre unifié d’insertion d’images prend en charge plusieurs scénarios d’application pratiques, notamment la création artistique, le remplacement de visages réels, la composition de scènes de films, l’essayage virtuel de vêtements, la personnalisation d’accessoires et le remplacement d’accessoires numériques, démontrant pleinement sa polyvalence et son efficacité dans diverses tâches d’édition d’images.
Caractéristiques Principales
- Cadre d’Insertion Unifié : Pas besoin de former des modèles séparés pour différentes tâches, un seul modèle prend en charge plusieurs scénarios d’insertion
- Méthodes de Contrôle Multiples : Prend en charge le guidage d’édition basé sur les masques et le texte
- Préservation des Caractéristiques d’Identité : Capture avec précision les caractéristiques d’identité et les détails fins, tout en permettant divers ajustements locaux de style, de couleur et de texture
- Mécanisme d’Édition Contextuelle : Traite les images de référence comme des informations contextuelles, utilisant deux stratégies d’incitation pour mélanger harmonieusement les éléments insérés avec la scène cible
- Support de Version à Faible VRAM : Fournit une version de 10 Go de VRAM basée sur Nunchaku, pratique pour les utilisateurs ordinaires
Démonstrations d’Applications
Création de Mèmes
La création de mèmes est un scénario d’application important pour Insert Anything. Voici quelques images comparatives :
Conception de Publicités Commerciales
La conception de publicités commerciales est un autre scénario d’application important pour Insert Anything. Voici quelques images comparatives :
Création de Culture Pop
La création de culture pop met en valeur le potentiel d’Insert Anything dans la génération de contenu créatif :
Points Techniques Importants
Insert Anything utilise le mécanisme d’attention multimodale du Diffusion Transformer (DiT), prenant en charge l’édition basée sur les masques et le texte. Selon les différents types d’invites, ce cadre unifié traite plusieurs images d’entrée (combinaisons d’images de référence, d’images source et de masques) via un encodeur VAE figé pour préserver les détails haute fréquence, et extrait des conseils sémantiques à partir d’encodeurs d’images et de texte. Ces intégrations sont combinées et introduites dans des blocs transformateurs DiT apprenables pour l’apprentissage contextuel, permettant une insertion d’image précise et flexible basée sur des invites de masque ou de texte.
Ensemble de Données AnyInsertion
Pour entraîner ce cadre unifié, l’équipe de recherche a créé le jeu de données AnyInsertion, qui contient environ 120 000 paires d’images et d’invites couvrant diverses tâches d’insertion telles que l’insertion de personnes, d’objets et de vêtements. Le jeu de données est divisé en catégories basées sur les masques et le texte, chacune étant subdivisée en sous-catégories d’accessoires, d’objets et de personnes.
Les paires d’images du jeu de données proviennent de ressources internet, de vidéos de personnes et d’images multi-vues. Le jeu de données couvre divers scénarios d’insertion :
- Meubles et décoration intérieure
- Articles de première nécessité
- Vêtements et accessoires
- Véhicules de transport
- Personnes
Open Source et Utilisation
Le projet Insert Anything a été open-source sur GitHub, et tout le monde peut le télécharger et l’utiliser librement :
- Dépôt GitHub : song-wensong/insert-anything
- Jeu de Données : WensongSong/AnyInsertion
Le projet propose plusieurs méthodes d’utilisation :
- Scripts d’inférence en ligne de commande
- Interface Gradio
- Nœuds d’intégration ComfyUI
Exigences Matérielles
Insert Anything propose deux versions :
- Version Standard : Nécessite 26 Go ou 40 Go de VRAM
- Version Légère : Version optimisée basée sur Nunchaku, nécessite seulement 10 Go de VRAM
Plans Futurs
Selon les informations du dépôt GitHub officiel, l’équipe prévoit de :
- Publier le code d’entraînement
- Publier le jeu de données d’invites textuelles AnyInsertion sur HuggingFace
Liens Connexes
La publication de ce cadre open-source fournira aux travailleurs créatifs, aux designers et aux créateurs de contenu un outil puissant pour obtenir des effets d’édition d’images plus flexibles et précis.