Руководство по рабочему процессу ByteDance USO ComfyUI, перенос стиля изображения и генерация изображений с сохранением идентичности субъекта
USO (Unified Style and Subject-Driven Generation) - это модель, разработанная командой UXO компании ByteDance, которая объединяет задачи генерации, управляемые стилем и субъектом. Построенная на архитектуре FLUX.1-dev, модель решает проблему, при которой традиционные методы рассматривают управляемую стилем и управляемую субъектом генерацию как противоположные задачи. USO решает это через унифицированную структуру с декуплингом и рекомбинацией содержания и стиля в качестве основной цели.
Модель использует двухэтапный метод обучения:
- Этап Первый: Выравнивание встраиваний SigLIP через обучение выравниванию стиля для получения модели со способностями стиля
- Этап Второй: Декуплинг условного кодировщика и обучение на триплетных данных для достижения совместной условной генерации
USO поддерживает несколько режимов генерации:
- Генерация на основе субъекта: Сохраняет согласованность идентичности субъекта, подходит для стилизации конкретных субъектов, таких как люди и объекты
- Генерация на основе стиля: Достигает высококачественного переноса стиля путем применения стиля опорных изображений к новому содержанию
- Генерация на основе идентичности: Выполняет стилизацию с сохранением характеристик идентичности, особенно подходит для стилизации портретов
- Совместная генерация стиль-субъект: Одновременно управляет субъектом и стилем для достижения сложных творческих выражений
- Смешанная генерация нескольких стилей: Поддерживает применение слияния нескольких стилей
Связанные ссылки
Нативный рабочий процесс ByteDance USO ComfyUI
1. Рабочий процесс и вход
Загрузите изображение ниже и перетащите его в ComfyUI для загрузки соответствующего рабочего процесса.
Используйте изображение ниже в качестве входного изображения.
2. Ссылки на модели
checkpoints
loras
model_patches
clip_visions
Загрузите все модели и поместите их в следующие каталоги:
📂 ComfyUI/
├── 📂 models/
│ ├── 📂 checkpoints/
│ │ └── flux1-dev-fp8.safetensors
│ ├── 📂 loras/
│ │ └── uso-flux1-dit-lora-v1.safetensors
│ ├── 📂 model_patches/
│ │ └── uso-flux1-projector-v1.safetensors
│ ├── 📂 clip_visions/
│ │ └── sigclip_vision_patch14_384.safetensors
3. Инструкции по рабочему процессу
- Загрузка моделей:
- 1.1 Убедитесь, что в узле
Load Checkpoint
загруженаflux1-dev-fp8.safetensors
- 1.2 Убедитесь, что в узле
LoraLoaderModelOnly
загруженаdit_lora.safetensors
- 1.3 Убедитесь, что в узле
ModelPatchLoader
загруженаprojector.safetensors
- 1.4 Убедитесь, что в узле
Load CLIP Vision
загруженаsigclip_vision_patch14_384.safetensors
- 1.1 Убедитесь, что в узле
- Ссылка на содержание:
- 2.1 Нажмите
Upload
, чтобы загрузить входное изображение, которое мы предоставили - 2.2 Узел
ImageScaleToMaxDimension
масштабирует ваше входное изображение для ссылки на содержание, 512px сохранит больше черт характера, но если вы используете только голову персонажа в качестве входных данных, финальное выходное изображение часто имеет проблемы, такие как персонаж, занимающий слишком много места. Установка на 1024px дает гораздо лучшие результаты.
- 2.1 Нажмите
- В примере мы используем только входное изображение
ссылка на содержание
. Если вы хотите использовать входное изображениессылка на стиль
, вы можете использоватьCtrl-B
, чтобы обойти отмеченную группу узлов. - Напишите свой запрос или оставьте по умолчанию
- Установите размер изображения, если это необходимо
- Узел EasyCache предназначен для ускорения вывода, но также жертвует некоторым качеством и деталями. Вы можете обойти его (Ctrl+B), если не хотите его использовать.
- Нажмите кнопку
Run
или используйте сочетание клавишCtrl(Cmd) + Enter
для запуска рабочего процесса
4. Дополнительные примечания
- Только ссылка на стиль:
Мы также предоставляем рабочий процесс, который использует только ссылку на стиль в том же рабочем процессе, который мы предоставили
Единственное отличие в том, что мы заменили узел
ссылка на содержание
и используем только узел Empty Latent Image
.
- Вы также можете обойти всю группу
Ссылка на стиль
и использовать рабочий процесс как рабочий процесс текст-в-изображение, что означает, что этот рабочий процесс имеет 4 вариации:
- Генерация на основе субъекта: Использовать только ссылку на содержание (субъект)
- Генерация на основе стиля: Использовать только ссылку на стиль
- Совместная генерация стиль-субъект: Смешанная ссылка на содержание и стиль
- Генерация текст-в-изображение: Как стандартный рабочий процесс текст-в-изображение