Руководство по рабочему процессу ByteDance USO ComfyUI, перенос стиля изображения и генерация изображений с сохранением идентичности субъекта

USO (Unified Style and Subject-Driven Generation) - это модель, разработанная командой UXO компании ByteDance, которая объединяет задачи генерации, управляемые стилем и субъектом. Построенная на архитектуре FLUX.1-dev, модель решает проблему, при которой традиционные методы рассматривают управляемую стилем и управляемую субъектом генерацию как противоположные задачи. USO решает это через унифицированную структуру с декуплингом и рекомбинацией содержания и стиля в качестве основной цели.

USO

Модель использует двухэтапный метод обучения:

Этап Первый: Выравнивание встраиваний SigLIP через обучение выравниванию стиля для получения модели со способностями стиля
Этап Второй: Декуплинг условного кодировщика и обучение на триплетных данных для достижения совместной условной генерации

USO поддерживает несколько режимов генерации:

Генерация на основе субъекта: Сохраняет согласованность идентичности субъекта, подходит для стилизации конкретных субъектов, таких как люди и объекты
Генерация на основе стиля: Достигает высококачественного переноса стиля путем применения стиля опорных изображений к новому содержанию
Генерация на основе идентичности: Выполняет стилизацию с сохранением характеристик идентичности, особенно подходит для стилизации портретов
Совместная генерация стиль-субъект: Одновременно управляет субъектом и стилем для достижения сложных творческих выражений
Смешанная генерация нескольких стилей: Поддерживает применение слияния нескольких стилей

Связанные ссылки

Нативный рабочий процесс ByteDance USO ComfyUI

1. Рабочий процесс и вход

Загрузите изображение ниже и перетащите его в ComfyUI для загрузки соответствующего рабочего процесса.

Workflow

Используйте изображение ниже в качестве входного изображения.

input

2. Ссылки на модели

checkpoints

flux1-dev-fp8.safetensors

loras

uso-flux1-dit-lora-v1.safetensors

model_patches

uso-flux1-projector-v1.safetensors

clip_visions

sigclip_vision_patch14_384.safetensors

Загрузите все модели и поместите их в следующие каталоги:

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 checkpoints/
│   │   └── flux1-dev-fp8.safetensors
│   ├── 📂 loras/
│   │   └── uso-flux1-dit-lora-v1.safetensors
│   ├── 📂 model_patches/
│   │   └── uso-flux1-projector-v1.safetensors
│   ├── 📂 clip_visions/
│   │   └── sigclip_vision_patch14_384.safetensors

3. Инструкции по рабочему процессу

Workflow

Загрузка моделей:
- 1.1 Убедитесь, что в узле Load Checkpoint загружена flux1-dev-fp8.safetensors
- 1.2 Убедитесь, что в узле LoraLoaderModelOnly загружена dit_lora.safetensors
- 1.3 Убедитесь, что в узле ModelPatchLoader загружена projector.safetensors
- 1.4 Убедитесь, что в узле Load CLIP Vision загружена sigclip_vision_patch14_384.safetensors
Ссылка на содержание:
- 2.1 Нажмите Upload, чтобы загрузить входное изображение, которое мы предоставили
- 2.2 Узел ImageScaleToMaxDimension масштабирует ваше входное изображение для ссылки на содержание, 512px сохранит больше черт характера, но если вы используете только голову персонажа в качестве входных данных, финальное выходное изображение часто имеет проблемы, такие как персонаж, занимающий слишком много места. Установка на 1024px дает гораздо лучшие результаты.
В примере мы используем только входное изображение ссылка на содержание. Если вы хотите использовать входное изображение ссылка на стиль, вы можете использовать Ctrl-B, чтобы обойти отмеченную группу узлов.
Напишите свой запрос или оставьте по умолчанию
Установите размер изображения, если это необходимо
Узел EasyCache предназначен для ускорения вывода, но также жертвует некоторым качеством и деталями. Вы можете обойти его (Ctrl+B), если не хотите его использовать.
Нажмите кнопку Run или используйте сочетание клавиш Ctrl(Cmd) + Enter для запуска рабочего процесса

4. Дополнительные примечания

Только ссылка на стиль:

Мы также предоставляем рабочий процесс, который использует только ссылку на стиль в том же рабочем процессе, который мы предоставили

Workflow Единственное отличие в том, что мы заменили узел ссылка на содержание и используем только узел Empty Latent Image.

Вы также можете обойти всю группу Ссылка на стиль и использовать рабочий процесс как рабочий процесс текст-в-изображение, что означает, что этот рабочий процесс имеет 4 вариации:

Генерация на основе субъекта: Использовать только ссылку на содержание (субъект)
Генерация на основе стиля: Использовать только ссылку на стиль
Совместная генерация стиль-субъект: Смешанная ссылка на содержание и стиль
Генерация текст-в-изображение: Как стандартный рабочий процесс текст-в-изображение