Skip to content
ComfyUI Wiki
Aidez à Construire une Meilleure Base de Connaissances ComfyUI Devenir Parrain
ActualitésSortie d'OmniGen2 : Modèle Unifié de Compréhension et Génération d'Images avec Instructions en Langage Naturel
Aucun article pour le moment. Revenez plus tard !

Sortie d’OmniGen2 : Modèle Unifié de Compréhension et Génération d’Images avec Instructions en Langage Naturel

L’équipe VectorSpaceLab a officiellement lancé OmniGen2, un puissant modèle de génération d’images multimodale. Contrairement à son prédécesseur OmniGen v1, OmniGen2 présente une conception de décodage à double voie pour les modalités texte et image, utilisant des paramètres indépendants et un tokeniseur d’image découplé, réalisant des améliorations de performance significatives dans l’édition d’images.

Capacités Générales d'OmniGen2

Caractéristiques Principales

OmniGen2 possède quatre capacités fondamentales, avec une excellence particulière dans l’édition d’images :

Édition d’Images Guidée par Instructions en Langage Naturel

Le point fort d’OmniGen2 est sa prise en charge de l’édition précise d’images locales via des instructions en langage naturel. Les utilisateurs peuvent simplement décrire les modifications souhaitées, et le modèle peut exécuter avec précision diverses tâches d’édition complexes :

  • Modification de vêtements : Comme “Changer la robe en bleu”
  • Ajustement d’actions : Comme “Lever la main”, “Le faire sourire”
  • Traitement d’arrière-plan : Comme “Changer l’arrière-plan en salle de classe”
  • Ajout d’objets : Comme “Ajouter un chapeau de pêcheur sur la tête de la femme”
  • Remplacement d’objets : Comme “Remplacer l’épée par un marteau”
  • Suppression d’objets : Comme “Supprimer le chat”
  • Conversion de style : Comme “Générer une figurine de style anime basée sur l’image originale”

Capacités d'Édition d'Images d'OmniGen2

Génération Texte-vers-Image

Le modèle peut générer des images de haute qualité et esthétiquement plaisantes basées sur des descriptions textuelles, prenant en charge divers scénarios créatifs.

Génération en Contexte

OmniGen2 a la capacité de traiter et de combiner de manière flexible des entrées diverses, incluant des humains, des objets de référence et des scènes, produisant des sorties visuelles nouvelles et cohérentes.

Capacités de Génération en Contexte d'OmniGen2

Compréhension Visuelle

Hérite des capacités robustes de compréhension visuelle de sa base Qwen-VL-2.5, capable d’interpréter et d’analyser le contenu d’images.

Avantages Techniques

OmniGen2 atteint des performances de pointe en édition d’images parmi les modèles open-source, avec les avantages suivants :

  • Contrôle d’édition plus précis : Modifications d’images à grain fin via des instructions en langage naturel
  • Haute efficacité des ressources : Fournit des options de déchargement CPU, prenant en charge les appareils avec VRAM limitée
  • Support multilingue : Bien que l’anglais fonctionne le mieux, prend en charge les entrées en plusieurs langues
  • Facile à utiliser : Fournit des interfaces API simples et des démonstrations en ligne

Exigences Système et Utilisation

OmniGen2 nécessite nativement un GPU NVIDIA RTX 3090 ou équivalent avec environ 17 Go de VRAM. Pour les appareils avec moins de VRAM, la fonctionnalité de déchargement CPU peut être activée pour exécuter le modèle.

Le modèle prend en charge plusieurs méthodes d’utilisation :

  • Outils en ligne de commande
  • Interface web Gradio
  • Carnets Jupyter
  • Plateformes de démonstration en ligne

Recommandations d’Utilisation

Pour des résultats optimaux, il est conseillé aux utilisateurs de :

  1. Utiliser des images de haute qualité : Fournir des images claires, de préférence avec une résolution supérieure à 512×512 pixels
  2. Descriptions d’instructions détaillées : Décrire clairement ce qu’il faut modifier et les résultats attendus
  3. Utiliser des prompts en anglais : Le modèle fonctionne mieux avec des prompts en anglais
  4. Ajuster les paramètres : Ajuster la force de guidage du texte et la force de guidage de l’image selon le type de tâche

Limitations Techniques

La version actuelle présente certaines limitations :

  • Le modèle peut parfois ne pas suivre complètement les instructions ; il est recommandé de générer plusieurs images pour sélection
  • Ne peut pas déterminer automatiquement la taille de l’image de sortie, par défaut 1024×1024
  • Lors du traitement de plusieurs images, un réglage manuel de la taille de sortie est requis pour correspondre à la cible d’édition

Liens Connexes

En tant que projet open-source, OmniGen2 fournit un outil de base puissant et efficace pour les chercheurs et développeurs explorant l’IA générative contrôlable et personnalisée. L’équipe indique qu’elle publiera le code d’entraînement et les jeux de données pour fournir plus de support à la communauté.