Sortie de XVerse : Un modèle de génération d'images à haute cohérence avec contrôle d'identité multi-sujets et d'attributs sémantiques

XVerse est un modèle de génération d'images multi-sujets contrôlable open-sourcé par l'équipe Creative AI de ByteDance en 2025. Il se concentre sur la résolution du défi du contrôle précis et indépendant de multiples objets (comme les personnes, les animaux, les objets) dans les images générées par IA. Le modèle prend en charge l'ajustement fin et non interférent de l'identité, de la pose, du style, de l'éclairage et d'autres attributs pour plusieurs sujets dans une image, améliorant significativement les capacités de génération pour les scènes personnalisées et complexes.

Démonstration du contrôle multi-sujets et d'attributs XVerse

I. Capacités fondamentales et innovations

Contrôle multi-sujets indépendant : Contrôle précis de l'identité, des actions et du style de plusieurs sujets simultanément, évitant le problème courant d'"enchevêtrement d'attributs" des méthodes traditionnelles.
Haute fidélité et préservation des détails : Préserve les détails comme les mèches de cheveux et les textures grâce à l'encodage des caractéristiques d'image VAE, réduisant les artefacts et la distorsion.
Édition flexible des attributs sémantiques : Prend en charge l'ajustement flexible des attributs non-identitaires comme l'éclairage et le style artistique, maintenant les caractéristiques du sujet pendant les transitions de scène.
Haute cohérence et stabilité : Mécanisme innovant de modulation du flux de texte et double régularisation (perte de protection de région, perte d'attention texte-image) assurant la stabilité et la cohérence de la génération.

II. Aperçu des principes techniques

1. Mécanisme de modulation du flux de texte (Adaptateur T-Mod)

Convertit les images de référence en décalages d'embedding de texte, réalisant un contrôle précis et indépendant de plusieurs sujets grâce à des signaux de contrôle en couches (partage global + modulation par blocs).
L'adaptateur T-Mod intègre les caractéristiques d'image CLIP avec les prompts textuels, générant des signaux de cross-modulation pour éviter la confusion des caractéristiques.

2. Module d'encodage des caractéristiques d'image VAE

Introduit des caractéristiques encodées VAE dans la structure FLUX pour améliorer la préservation des détails, rendant les images générées plus réalistes et naturelles.

3. Mécanisme de double régularisation

Perte de protection de région : Préserve aléatoirement certaines régions de la modulation pour s'assurer que les objets non ciblés restent non perturbés.
Perte d'attention texte-image : Optimise l'allocation de l'attention pour améliorer la précision de l'alignement sémantique.

III. Données d'entraînement et benchmarks d'évaluation

XVerse utilise un dataset de contrôle multi-sujets de haute qualité couvrant 20 types de personnes, 74 types d'objets et 45 types d'animaux, synthétisant des millions d'images de haute qualité esthétique.

Processus de construction des données d'entraînement

Les performances du modèle surpassent significativement les méthodes similaires sur le benchmark XVerseBench, supportant divers scénarios de contrôle incluant un, deux et trois sujets.

Distribution des données et exemples XVerseBench

IV. Résultats expérimentaux et études de cas

1. Contrôle précis de l'identité et des attributs d'un sujet unique

XVerse maintient la cohérence de l'identité du sujet à travers divers scénarios tout en ajustant de manière flexible la pose, les vêtements, l'environnement et d'autres attributs.

2. Cohérence multi-sujets et contrôle indépendant

XVerse réalise un contrôle indépendant des identités et attributs de plusieurs sujets au sein de la même image tout en maintenant une interaction naturelle et une cohérence de scène.

3. Contrôle flexible des attributs sémantiques

XVerse prend en charge l'ajustement détaillé des attributs sémantiques comme l'éclairage, la pose et le style pour répondre à divers besoins créatifs.

Exemples de contrôle d'attributs sémantiques

V. Open Source et ressources associées

Page du projet : https://bytedance.github.io/XVerse/
Dépôt GitHub : https://github.com/bytedance/XVerse
Téléchargement du modèle : https://huggingface.co/ByteDance/XVerse
Article technique : https://arxiv.org/abs/2506.21416

Contenu référencé depuis la page officielle XVerse, GitHub, et les documents open-source associés.