Skip to content
ComfyUI Wiki
Ayuda a Construir una Mejor Base de Conocimientos de ComfyUI Conviértete en Patrocinador
NoticiasLanzamiento de XVerse: Un Modelo de Generación de Imágenes de Alta Consistencia con Control de Identidad Multi-sujeto y Atributos Semánticos

Lanzamiento de XVerse: Un Modelo de Generación de Imágenes de Alta Consistencia con Control de Identidad Multi-sujeto y Atributos Semánticos

XVerse es un modelo controlable de generación de imágenes multi-sujeto liberado como código abierto por el equipo de IA Creativa de ByteDance en 2025. Se enfoca en resolver el desafío del control preciso e independiente de múltiples objetos (como personas, animales, objetos) en imágenes generadas por IA. El modelo soporta el ajuste detallado y no interferente de identidad, pose, estilo, iluminación y otros atributos para múltiples sujetos en una imagen, mejorando significativamente las capacidades de generación para escenas personalizadas y complejas.

Demostración de Control Multi-sujeto y Atributos de XVerse

I. Capacidades Principales e Innovaciones

  • Control Multi-sujeto Independiente: Controla con precisión la identidad, acciones y estilo de múltiples sujetos simultáneamente, evitando el problema común de “entrelazamiento de atributos” en métodos tradicionales.
  • Alta Fidelidad y Preservación de Detalles: Preserva detalles como mechones de cabello y texturas a través de la codificación de características de imagen VAE, reduciendo artefactos y distorsión.
  • Edición Flexible de Atributos Semánticos: Soporta el ajuste flexible de atributos no relacionados con la identidad como iluminación y estilo artístico, manteniendo las características del sujeto durante las transiciones de escena.
  • Alta Consistencia y Estabilidad: Mecanismo innovador de modulación de flujo de texto y doble regularización (pérdida de protección de región, pérdida de atención texto-imagen) aseguran la estabilidad y consistencia en la generación.

II. Descripción General de Principios Técnicos

1. Mecanismo de Modulación de Flujo de Texto (Adaptador T-Mod)

  • Convierte imágenes de referencia en desplazamientos de incrustación de texto, logrando un control preciso e independiente de múltiples sujetos a través de señales de control en capas (compartición global + modulación por bloques).
  • El adaptador T-Mod integra características de imagen CLIP con indicaciones de texto, generando señales de modulación cruzada para evitar la confusión de características.

Diagrama de Flujo de Arquitectura XVerse

2. Módulo de Codificación de Características de Imagen VAE

  • Introduce características codificadas VAE en la estructura FLUX para mejorar la preservación de detalles, haciendo que las imágenes generadas sean más realistas y naturales.

3. Mecanismo de Doble Regularización

  • Pérdida de Protección de Región: Preserva aleatoriamente ciertas regiones de la modulación para asegurar que los objetos no objetivo permanezcan sin perturbaciones.
  • Pérdida de Atención Texto-Imagen: Optimiza la asignación de atención para mejorar la precisión del alineamiento semántico.

III. Datos de Entrenamiento y Puntos de Referencia de Evaluación

XVerse utiliza un conjunto de datos de control multi-sujeto de alta calidad que cubre 20 tipos de personas, 74 tipos de elementos y 45 tipos de animales, sintetizando millones de imágenes de alta calidad estética.

Proceso de Construcción de Datos de Entrenamiento

El rendimiento del modelo supera significativamente métodos similares en el punto de referencia XVerseBench, soportando varios escenarios de control incluyendo sujetos individuales, dobles y triples.

Distribución de Datos y Ejemplos de XVerseBench

MétricaSignificado
Puntuación DPGCapacidad de Edición
Similitud de ID FacialConsistencia de Identidad de Persona
Similitud DINOv2Consistencia de Características de Objeto
Puntuación EstéticaCalidad Estética de la Imagen

IV. Resultados Experimentales y Estudios de Caso

1. Control Preciso de Identidad y Atributos de Sujeto Individual

XVerse mantiene la consistencia de identidad del sujeto a través de diversos escenarios mientras ajusta flexiblemente la pose, vestimenta, entorno y otros atributos.

Ejemplo de Sujeto Individual 1Ejemplo de Sujeto Individual 2Ejemplo de Sujeto Individual 3Ejemplo de Sujeto Individual 4Ejemplo de Sujeto Individual 5

2. Consistencia Multi-sujeto y Control Independiente

XVerse logra el control independiente de múltiples identidades de sujetos y atributos dentro de la misma imagen mientras mantiene la interacción natural y la consistencia de la escena.

Ejemplo Multi-sujeto 1Ejemplo Multi-sujeto 2Ejemplo Multi-sujeto 3Ejemplo Multi-sujeto 4Ejemplo Multi-sujeto 5

3. Control Flexible de Atributos Semánticos

XVerse soporta el ajuste detallado de atributos semánticos como iluminación, pose y estilo para satisfacer diversas necesidades creativas.

Ejemplos de Control de Atributos Semánticos

V. Código Abierto y Recursos Relacionados


Contenido referenciado de Página Oficial de XVerse, GitHub, y materiales relacionados de código abierto.