Lanzamiento de XVerse: Un Modelo de Generación de Imágenes de Alta Consistencia con Control de Identidad Multi-sujeto y Atributos Semánticos

XVerse es un modelo controlable de generación de imágenes multi-sujeto liberado como código abierto por el equipo de IA Creativa de ByteDance en 2025. Se enfoca en resolver el desafío del control preciso e independiente de múltiples objetos (como personas, animales, objetos) en imágenes generadas por IA. El modelo soporta el ajuste detallado y no interferente de identidad, pose, estilo, iluminación y otros atributos para múltiples sujetos en una imagen, mejorando significativamente las capacidades de generación para escenas personalizadas y complejas.

Demostración de Control Multi-sujeto y Atributos de XVerse

I. Capacidades Principales e Innovaciones

Control Multi-sujeto Independiente: Controla con precisión la identidad, acciones y estilo de múltiples sujetos simultáneamente, evitando el problema común de "entrelazamiento de atributos" en métodos tradicionales.
Alta Fidelidad y Preservación de Detalles: Preserva detalles como mechones de cabello y texturas a través de la codificación de características de imagen VAE, reduciendo artefactos y distorsión.
Edición Flexible de Atributos Semánticos: Soporta el ajuste flexible de atributos no relacionados con la identidad como iluminación y estilo artístico, manteniendo las características del sujeto durante las transiciones de escena.
Alta Consistencia y Estabilidad: Mecanismo innovador de modulación de flujo de texto y doble regularización (pérdida de protección de región, pérdida de atención texto-imagen) aseguran la estabilidad y consistencia en la generación.

II. Descripción General de Principios Técnicos

1. Mecanismo de Modulación de Flujo de Texto (Adaptador T-Mod)

Convierte imágenes de referencia en desplazamientos de incrustación de texto, logrando un control preciso e independiente de múltiples sujetos a través de señales de control en capas (compartición global + modulación por bloques).
El adaptador T-Mod integra características de imagen CLIP con indicaciones de texto, generando señales de modulación cruzada para evitar la confusión de características.

Diagrama de Flujo de Arquitectura XVerse

2. Módulo de Codificación de Características de Imagen VAE

Introduce características codificadas VAE en la estructura FLUX para mejorar la preservación de detalles, haciendo que las imágenes generadas sean más realistas y naturales.

3. Mecanismo de Doble Regularización

Pérdida de Protección de Región: Preserva aleatoriamente ciertas regiones de la modulación para asegurar que los objetos no objetivo permanezcan sin perturbaciones.
Pérdida de Atención Texto-Imagen: Optimiza la asignación de atención para mejorar la precisión del alineamiento semántico.

III. Datos de Entrenamiento y Puntos de Referencia de Evaluación

XVerse utiliza un conjunto de datos de control multi-sujeto de alta calidad que cubre 20 tipos de personas, 74 tipos de elementos y 45 tipos de animales, sintetizando millones de imágenes de alta calidad estética.

Proceso de Construcción de Datos de Entrenamiento

El rendimiento del modelo supera significativamente métodos similares en el punto de referencia XVerseBench, soportando varios escenarios de control incluyendo sujetos individuales, dobles y triples.

Distribución de Datos y Ejemplos de XVerseBench

IV. Resultados Experimentales y Estudios de Caso

1. Control Preciso de Identidad y Atributos de Sujeto Individual

XVerse mantiene la consistencia de identidad del sujeto a través de diversos escenarios mientras ajusta flexiblemente la pose, vestimenta, entorno y otros atributos.

2. Consistencia Multi-sujeto y Control Independiente

XVerse logra el control independiente de múltiples identidades de sujetos y atributos dentro de la misma imagen mientras mantiene la interacción natural y la consistencia de la escena.