Black Forest Labs выпускает открытую версию FLUX.1 Krea [dev] с нативной поддержкой ComfyUI
31.07.2025
Выпущен XVerse: модель генерации изображений с высокой согласованностью и контролем идентичности нескольких объектов и семантических атрибутов
XVerse - это контролируемая модель генерации изображений с несколькими объектами с открытым исходным кодом, выпущенная командой Creative AI ByteDance в 2025 году. Она фокусируется на решении задачи точного независимого контроля нескольких объектов (таких как люди, животные, предметы) в ИИ-генерированных изображениях. Модель поддерживает детальную, неинтерферирующую настройку идентичности, позы, стиля, освещения и других атрибутов для нескольких объектов в изображении, значительно улучшая возможности генерации для персонализированных и сложных сцен.
I. Основные возможности и инновации
- Независимый контроль нескольких объектов: Точный контроль идентичности, действий и стиля нескольких объектов одновременно, избегая общей проблемы “запутывания атрибутов” в традиционных методах.
- Высокое качество и сохранение деталей: Сохраняет детали, такие как пряди волос и текстуры, через кодирование особенностей изображения VAE, уменьшая артефакты и искажения.
- Гибкое редактирование семантических атрибутов: Поддерживает гибкую настройку неидентичностных атрибутов, таких как освещение и художественный стиль, сохраняя характеристики объектов во время переходов сцен.
- Высокая согласованность и стабильность: Инновационный механизм модуляции текстового потока и двойная регуляризация (потеря защиты региона, потеря внимания текст-изображение) обеспечивают стабильность и согласованность генерации.
II. Обзор технических принципов
1. Механизм модуляции текстового потока (T-Mod Adapter)
- Преобразует эталонные изображения в смещения текстового встраивания, достигая точного независимого контроля нескольких объектов через многослойные контрольные сигналы (глобальное разделение + блочная модуляция).
- T-Mod адаптер интегрирует особенности изображения CLIP с текстовыми подсказками, генерируя кросс-модуляционные сигналы для избежания путаницы особенностей.
2. Модуль кодирования особенностей изображения VAE
- Вводит закодированные особенности VAE в структуре FLUX для улучшения сохранения деталей, делая сгенерированные изображения более реалистичными и естественными.
3. Механизм двойной регуляризации
- Потеря защиты региона: Случайно сохраняет определенные регионы от модуляции для обеспечения ненарушенности нетаргетных объектов.
- Потеря внимания текст-изображение: Оптимизирует распределение внимания для улучшения точности семантического выравнивания.
III. Данные обучения и эталонные оценки
XVerse использует высококачественный набор данных контроля нескольких объектов, охватывающий 20 типов людей, 74 типа предметов и 45 типов животных, синтезируя миллионы изображений высокого эстетического качества.
Производительность модели значительно превосходит аналогичные методы на эталоне XVerseBench, поддерживая различные сценарии контроля, включая одиночные, двойные и тройные объекты.
Метрика | Значение |
---|---|
DPG Score | Способность редактирования |
Face ID Similarity | Согласованность идентичности человека |
DINOv2 Similarity | Согласованность особенностей объекта |
Aesthetic Score | Эстетическое качество изображения |
IV. Экспериментальные результаты и примеры
1. Точный контроль идентичности и атрибутов одиночного объекта
XVerse поддерживает согласованность идентичности объекта в различных сценариях, гибко настраивая позу, одежду, окружающую среду и другие атрибуты.





2. Согласованность и независимый контроль нескольких объектов
XVerse достигает независимого контроля идентичностей и атрибутов нескольких объектов в одном изображении, поддерживая естественное взаимодействие и согласованность сцены.





3. Гибкий контроль семантических атрибутов
XVerse поддерживает детальную настройку семантических атрибутов, таких как освещение, поза и стиль, для удовлетворения различных творческих потребностей.
V. Открытый исходный код и связанные ресурсы
- Домашняя страница проекта: https://bytedance.github.io/XVerse/
- Репозиторий GitHub: https://github.com/bytedance/XVerse
- Загрузка модели: https://huggingface.co/ByteDance/XVerse
- Техническая статья: https://arxiv.org/abs/2506.21416
Контент взят с Официальной домашней страницы XVerse, GitHub и связанных материалов с открытым исходным кодом.