Skip to content
ComfyUI Wiki
Помогите создать лучшую базу знаний ComfyUI Стать спонсором
НовостиВыпущен XVerse: модель генерации изображений с высокой согласованностью и контролем идентичности нескольких объектов и семантических атрибутов

Выпущен XVerse: модель генерации изображений с высокой согласованностью и контролем идентичности нескольких объектов и семантических атрибутов

XVerse - это контролируемая модель генерации изображений с несколькими объектами с открытым исходным кодом, выпущенная командой Creative AI ByteDance в 2025 году. Она фокусируется на решении задачи точного независимого контроля нескольких объектов (таких как люди, животные, предметы) в ИИ-генерированных изображениях. Модель поддерживает детальную, неинтерферирующую настройку идентичности, позы, стиля, освещения и других атрибутов для нескольких объектов в изображении, значительно улучшая возможности генерации для персонализированных и сложных сцен.

Демонстрация контроля нескольких объектов и атрибутов XVerse

I. Основные возможности и инновации

  • Независимый контроль нескольких объектов: Точный контроль идентичности, действий и стиля нескольких объектов одновременно, избегая общей проблемы “запутывания атрибутов” в традиционных методах.
  • Высокое качество и сохранение деталей: Сохраняет детали, такие как пряди волос и текстуры, через кодирование особенностей изображения VAE, уменьшая артефакты и искажения.
  • Гибкое редактирование семантических атрибутов: Поддерживает гибкую настройку неидентичностных атрибутов, таких как освещение и художественный стиль, сохраняя характеристики объектов во время переходов сцен.
  • Высокая согласованность и стабильность: Инновационный механизм модуляции текстового потока и двойная регуляризация (потеря защиты региона, потеря внимания текст-изображение) обеспечивают стабильность и согласованность генерации.

II. Обзор технических принципов

1. Механизм модуляции текстового потока (T-Mod Adapter)

  • Преобразует эталонные изображения в смещения текстового встраивания, достигая точного независимого контроля нескольких объектов через многослойные контрольные сигналы (глобальное разделение + блочная модуляция).
  • T-Mod адаптер интегрирует особенности изображения CLIP с текстовыми подсказками, генерируя кросс-модуляционные сигналы для избежания путаницы особенностей.

Диаграмма архитектурного потока XVerse

2. Модуль кодирования особенностей изображения VAE

  • Вводит закодированные особенности VAE в структуре FLUX для улучшения сохранения деталей, делая сгенерированные изображения более реалистичными и естественными.

3. Механизм двойной регуляризации

  • Потеря защиты региона: Случайно сохраняет определенные регионы от модуляции для обеспечения ненарушенности нетаргетных объектов.
  • Потеря внимания текст-изображение: Оптимизирует распределение внимания для улучшения точности семантического выравнивания.

III. Данные обучения и эталонные оценки

XVerse использует высококачественный набор данных контроля нескольких объектов, охватывающий 20 типов людей, 74 типа предметов и 45 типов животных, синтезируя миллионы изображений высокого эстетического качества.

Процесс построения данных обучения

Производительность модели значительно превосходит аналогичные методы на эталоне XVerseBench, поддерживая различные сценарии контроля, включая одиночные, двойные и тройные объекты.

Распределение данных и примеры XVerseBench

МетрикаЗначение
DPG ScoreСпособность редактирования
Face ID SimilarityСогласованность идентичности человека
DINOv2 SimilarityСогласованность особенностей объекта
Aesthetic ScoreЭстетическое качество изображения

IV. Экспериментальные результаты и примеры

1. Точный контроль идентичности и атрибутов одиночного объекта

XVerse поддерживает согласованность идентичности объекта в различных сценариях, гибко настраивая позу, одежду, окружающую среду и другие атрибуты.

Пример одиночного объекта 1Пример одиночного объекта 2Пример одиночного объекта 3Пример одиночного объекта 4Пример одиночного объекта 5

2. Согласованность и независимый контроль нескольких объектов

XVerse достигает независимого контроля идентичностей и атрибутов нескольких объектов в одном изображении, поддерживая естественное взаимодействие и согласованность сцены.

Пример нескольких объектов 1Пример нескольких объектов 2Пример нескольких объектов 3Пример нескольких объектов 4Пример нескольких объектов 5

3. Гибкий контроль семантических атрибутов

XVerse поддерживает детальную настройку семантических атрибутов, таких как освещение, поза и стиль, для удовлетворения различных творческих потребностей.

Примеры контроля семантических атрибутов

V. Открытый исходный код и связанные ресурсы


Контент взят с Официальной домашней страницы XVerse, GitHub и связанных материалов с открытым исходным кодом.