Skip to content
ComfyUI Wiki
Aidez à Construire une Meilleure Base de Connaissances ComfyUI Devenir Parrain
ActualitésSortie de XVerse : Un modèle de génération d'images à haute cohérence avec contrôle d'identité multi-sujets et d'attributs sémantiques
Aucun article pour le moment. Revenez plus tard !

Sortie de XVerse : Un modèle de génération d’images à haute cohérence avec contrôle d’identité multi-sujets et d’attributs sémantiques

XVerse est un modèle de génération d’images multi-sujets contrôlable open-sourcé par l’équipe Creative AI de ByteDance en 2025. Il se concentre sur la résolution du défi du contrôle précis et indépendant de multiples objets (comme les personnes, les animaux, les objets) dans les images générées par IA. Le modèle prend en charge l’ajustement fin et non interférent de l’identité, de la pose, du style, de l’éclairage et d’autres attributs pour plusieurs sujets dans une image, améliorant significativement les capacités de génération pour les scènes personnalisées et complexes.

Démonstration du contrôle multi-sujets et d'attributs XVerse

I. Capacités fondamentales et innovations

  • Contrôle multi-sujets indépendant : Contrôle précis de l’identité, des actions et du style de plusieurs sujets simultanément, évitant le problème courant d‘“enchevêtrement d’attributs” des méthodes traditionnelles.
  • Haute fidélité et préservation des détails : Préserve les détails comme les mèches de cheveux et les textures grâce à l’encodage des caractéristiques d’image VAE, réduisant les artefacts et la distorsion.
  • Édition flexible des attributs sémantiques : Prend en charge l’ajustement flexible des attributs non-identitaires comme l’éclairage et le style artistique, maintenant les caractéristiques du sujet pendant les transitions de scène.
  • Haute cohérence et stabilité : Mécanisme innovant de modulation du flux de texte et double régularisation (perte de protection de région, perte d’attention texte-image) assurant la stabilité et la cohérence de la génération.

II. Aperçu des principes techniques

1. Mécanisme de modulation du flux de texte (Adaptateur T-Mod)

  • Convertit les images de référence en décalages d’embedding de texte, réalisant un contrôle précis et indépendant de plusieurs sujets grâce à des signaux de contrôle en couches (partage global + modulation par blocs).
  • L’adaptateur T-Mod intègre les caractéristiques d’image CLIP avec les prompts textuels, générant des signaux de cross-modulation pour éviter la confusion des caractéristiques.

Diagramme de flux d'architecture XVerse

2. Module d’encodage des caractéristiques d’image VAE

  • Introduit des caractéristiques encodées VAE dans la structure FLUX pour améliorer la préservation des détails, rendant les images générées plus réalistes et naturelles.

3. Mécanisme de double régularisation

  • Perte de protection de région : Préserve aléatoirement certaines régions de la modulation pour s’assurer que les objets non ciblés restent non perturbés.
  • Perte d’attention texte-image : Optimise l’allocation de l’attention pour améliorer la précision de l’alignement sémantique.

III. Données d’entraînement et benchmarks d’évaluation

XVerse utilise un dataset de contrôle multi-sujets de haute qualité couvrant 20 types de personnes, 74 types d’objets et 45 types d’animaux, synthétisant des millions d’images de haute qualité esthétique.

Processus de construction des données d'entraînement

Les performances du modèle surpassent significativement les méthodes similaires sur le benchmark XVerseBench, supportant divers scénarios de contrôle incluant un, deux et trois sujets.

Distribution des données et exemples XVerseBench

MétriqueSignification
Score DPGCapacité d’édition
Similarité ID visageCohérence de l’identité de la personne
Similarité DINOv2Cohérence des caractéristiques d’objet
Score esthétiqueQualité esthétique de l’image

IV. Résultats expérimentaux et études de cas

1. Contrôle précis de l’identité et des attributs d’un sujet unique

XVerse maintient la cohérence de l’identité du sujet à travers divers scénarios tout en ajustant de manière flexible la pose, les vêtements, l’environnement et d’autres attributs.

Exemple sujet unique 1Exemple sujet unique 2Exemple sujet unique 3Exemple sujet unique 4Exemple sujet unique 5

2. Cohérence multi-sujets et contrôle indépendant

XVerse réalise un contrôle indépendant des identités et attributs de plusieurs sujets au sein de la même image tout en maintenant une interaction naturelle et une cohérence de scène.

Exemple multi-sujets 1Exemple multi-sujets 2Exemple multi-sujets 3Exemple multi-sujets 4Exemple multi-sujets 5

3. Contrôle flexible des attributs sémantiques

XVerse prend en charge l’ajustement détaillé des attributs sémantiques comme l’éclairage, la pose et le style pour répondre à divers besoins créatifs.

Exemples de contrôle d'attributs sémantiques

V. Open Source et ressources associées


Contenu référencé depuis la page officielle XVerse, GitHub, et les documents open-source associés.