Выпущен XVerse: модель генерации изображений с высокой согласованностью и контролем идентичности нескольких объектов и семантических атрибутов

XVerse - это контролируемая модель генерации изображений с несколькими объектами с открытым исходным кодом, выпущенная командой Creative AI ByteDance в 2025 году. Она фокусируется на решении задачи точного независимого контроля нескольких объектов (таких как люди, животные, предметы) в ИИ-генерированных изображениях. Модель поддерживает детальную, неинтерферирующую настройку идентичности, позы, стиля, освещения и других атрибутов для нескольких объектов в изображении, значительно улучшая возможности генерации для персонализированных и сложных сцен.

Демонстрация контроля нескольких объектов и атрибутов XVerse

I. Основные возможности и инновации

Независимый контроль нескольких объектов: Точный контроль идентичности, действий и стиля нескольких объектов одновременно, избегая общей проблемы “запутывания атрибутов” в традиционных методах.
Высокое качество и сохранение деталей: Сохраняет детали, такие как пряди волос и текстуры, через кодирование особенностей изображения VAE, уменьшая артефакты и искажения.
Гибкое редактирование семантических атрибутов: Поддерживает гибкую настройку неидентичностных атрибутов, таких как освещение и художественный стиль, сохраняя характеристики объектов во время переходов сцен.
Высокая согласованность и стабильность: Инновационный механизм модуляции текстового потока и двойная регуляризация (потеря защиты региона, потеря внимания текст-изображение) обеспечивают стабильность и согласованность генерации.

II. Обзор технических принципов

1. Механизм модуляции текстового потока (T-Mod Adapter)

Преобразует эталонные изображения в смещения текстового встраивания, достигая точного независимого контроля нескольких объектов через многослойные контрольные сигналы (глобальное разделение + блочная модуляция).
T-Mod адаптер интегрирует особенности изображения CLIP с текстовыми подсказками, генерируя кросс-модуляционные сигналы для избежания путаницы особенностей.

Диаграмма архитектурного потока XVerse

2. Модуль кодирования особенностей изображения VAE

Вводит закодированные особенности VAE в структуре FLUX для улучшения сохранения деталей, делая сгенерированные изображения более реалистичными и естественными.

3. Механизм двойной регуляризации

Потеря защиты региона: Случайно сохраняет определенные регионы от модуляции для обеспечения ненарушенности нетаргетных объектов.
Потеря внимания текст-изображение: Оптимизирует распределение внимания для улучшения точности семантического выравнивания.

III. Данные обучения и эталонные оценки

XVerse использует высококачественный набор данных контроля нескольких объектов, охватывающий 20 типов людей, 74 типа предметов и 45 типов животных, синтезируя миллионы изображений высокого эстетического качества.

Процесс построения данных обучения

Производительность модели значительно превосходит аналогичные методы на эталоне XVerseBench, поддерживая различные сценарии контроля, включая одиночные, двойные и тройные объекты.

Распределение данных и примеры XVerseBench

Метрика	Значение
DPG Score	Способность редактирования
Face ID Similarity	Согласованность идентичности человека
DINOv2 Similarity	Согласованность особенностей объекта
Aesthetic Score	Эстетическое качество изображения

IV. Экспериментальные результаты и примеры

1. Точный контроль идентичности и атрибутов одиночного объекта

XVerse поддерживает согласованность идентичности объекта в различных сценариях, гибко настраивая позу, одежду, окружающую среду и другие атрибуты.

2. Согласованность и независимый контроль нескольких объектов

XVerse достигает независимого контроля идентичностей и атрибутов нескольких объектов в одном изображении, поддерживая естественное взаимодействие и согласованность сцены.

3. Гибкий контроль семантических атрибутов

XVerse поддерживает детальную настройку семантических атрибутов, таких как освещение, поза и стиль, для удовлетворения различных творческих потребностей.

Примеры контроля семантических атрибутов

V. Открытый исходный код и связанные ресурсы

Домашняя страница проекта: https://bytedance.github.io/XVerse/
Репозиторий GitHub: https://github.com/bytedance/XVerse
Загрузка модели: https://huggingface.co/ByteDance/XVerse
Техническая статья: https://arxiv.org/abs/2506.21416

Контент взят с Официальной домашней страницы XVerse, GitHub и связанных материалов с открытым исходным кодом.