Aucun article pour le moment. Revenez plus tard !

Insert Anything : Cadre Open-Source pour l’Insertion Transparente d’Images

Aperçu d'Insert Anything

Insert Anything est un nouveau cadre d’édition d’images open-source développé conjointement par une équipe de recherche (Wensong Song, Hong Jiang, Zongxing Yang, Ruijie Quan, Yi Yang) de l’Université de Zhejiang, de l’Université Harvard et de l’Université Technologique de Nanyang. Ce cadre peut intégrer de manière transparente des objets provenant d’images de référence dans des scènes cibles sous un guidage de contrôle spécifié par l’utilisateur.

Ce cadre unifié d’insertion d’images prend en charge plusieurs scénarios d’application pratiques, notamment la création artistique, le remplacement de visages réels, la composition de scènes de films, l’essayage virtuel de vêtements, la personnalisation d’accessoires et le remplacement d’accessoires numériques, démontrant pleinement sa polyvalence et son efficacité dans diverses tâches d’édition d’images.

Caractéristiques Principales

Cadre d’Insertion Unifié : Pas besoin de former des modèles séparés pour différentes tâches, un seul modèle prend en charge plusieurs scénarios d’insertion
Méthodes de Contrôle Multiples : Prend en charge le guidage d’édition basé sur les masques et le texte
Préservation des Caractéristiques d’Identité : Capture avec précision les caractéristiques d’identité et les détails fins, tout en permettant divers ajustements locaux de style, de couleur et de texture
Mécanisme d’Édition Contextuelle : Traite les images de référence comme des informations contextuelles, utilisant deux stratégies d’incitation pour mélanger harmonieusement les éléments insérés avec la scène cible
Support de Version à Faible VRAM : Fournit une version de 10 Go de VRAM basée sur Nunchaku, pratique pour les utilisateurs ordinaires

Démonstrations d’Applications

Création de Mèmes

La création de mèmes est un scénario d’application important pour Insert Anything. Voici quelques images comparatives :

Exemple de Mème 1 Effet de Mème 1

Exemple de Mème 2 Effet de Mème 2

Exemple de Mème 3 Effet de Mème 3

Conception de Publicités Commerciales

La conception de publicités commerciales est un autre scénario d’application important pour Insert Anything. Voici quelques images comparatives :

Exemple de Pub 1 Effet de Pub 1

Exemple de Pub 2 Effet de Pub 2

Exemple de Pub 3 Effet de Pub 3

Création de Culture Pop

La création de culture pop met en valeur le potentiel d’Insert Anything dans la génération de contenu créatif :

Exemple de Culture Pop 1 Effet de Culture Pop 1

Exemple de Culture Pop 2 Effet de Culture Pop 2

Exemple de Culture Pop 3 Effet de Culture Pop 3

Exemple de Culture Pop 4 Effet de Culture Pop 4

Points Techniques Importants

Aperçu de la Méthode Insert Anything

Insert Anything utilise le mécanisme d’attention multimodale du Diffusion Transformer (DiT), prenant en charge l’édition basée sur les masques et le texte. Selon les différents types d’invites, ce cadre unifié traite plusieurs images d’entrée (combinaisons d’images de référence, d’images source et de masques) via un encodeur VAE figé pour préserver les détails haute fréquence, et extrait des conseils sémantiques à partir d’encodeurs d’images et de texte. Ces intégrations sont combinées et introduites dans des blocs transformateurs DiT apprenables pour l’apprentissage contextuel, permettant une insertion d’image précise et flexible basée sur des invites de masque ou de texte.

Ensemble de Données AnyInsertion

Exemples de l'Ensemble de Données AnyInsertion

Informations sur l'Ensemble de Données AnyInsertion

Pour entraîner ce cadre unifié, l’équipe de recherche a créé le jeu de données AnyInsertion, qui contient environ 120 000 paires d’images et d’invites couvrant diverses tâches d’insertion telles que l’insertion de personnes, d’objets et de vêtements. Le jeu de données est divisé en catégories basées sur les masques et le texte, chacune étant subdivisée en sous-catégories d’accessoires, d’objets et de personnes.

Les paires d’images du jeu de données proviennent de ressources internet, de vidéos de personnes et d’images multi-vues. Le jeu de données couvre divers scénarios d’insertion :

Meubles et décoration intérieure
Articles de première nécessité
Vêtements et accessoires
Véhicules de transport
Personnes

Open Source et Utilisation

Le projet Insert Anything a été open-source sur GitHub, et tout le monde peut le télécharger et l’utiliser librement :

Dépôt GitHub : song-wensong/insert-anything
Jeu de Données : WensongSong/AnyInsertion

Le projet propose plusieurs méthodes d’utilisation :

Scripts d’inférence en ligne de commande
Interface Gradio
Nœuds d’intégration ComfyUI

Exigences Matérielles

Insert Anything propose deux versions :

Version Standard : Nécessite 26 Go ou 40 Go de VRAM
Version Légère : Version optimisée basée sur Nunchaku, nécessite seulement 10 Go de VRAM

Plans Futurs

Selon les informations du dépôt GitHub officiel, l’équipe prévoit de :

Publier le code d’entraînement
Publier le jeu de données d’invites textuelles AnyInsertion sur HuggingFace

Liens Connexes

La publication de ce cadre open-source fournira aux travailleurs créatifs, aux designers et aux créateurs de contenu un outil puissant pour obtenir des effets d’édition d’images plus flexibles et précis.

RunComfy

Comfy Deploy

Comfy Online

Comfy.ICU

InstaSD