Skip to content
ComfyUI Wiki
Помогите создать лучшую базу знаний ComfyUI Стать спонсором

Руководство по рабочему процессу ByteDance USO ComfyUI, перенос стиля изображения и генерация изображений с сохранением идентичности субъекта

USO (Unified Style and Subject-Driven Generation) - это модель, разработанная командой UXO компании ByteDance, которая объединяет задачи генерации, управляемые стилем и субъектом. Построенная на архитектуре FLUX.1-dev, модель решает проблему, при которой традиционные методы рассматривают управляемую стилем и управляемую субъектом генерацию как противоположные задачи. USO решает это через унифицированную структуру с декуплингом и рекомбинацией содержания и стиля в качестве основной цели.

USO

Модель использует двухэтапный метод обучения:

  • Этап Первый: Выравнивание встраиваний SigLIP через обучение выравниванию стиля для получения модели со способностями стиля
  • Этап Второй: Декуплинг условного кодировщика и обучение на триплетных данных для достижения совместной условной генерации

USO поддерживает несколько режимов генерации:

  • Генерация на основе субъекта: Сохраняет согласованность идентичности субъекта, подходит для стилизации конкретных субъектов, таких как люди и объекты
  • Генерация на основе стиля: Достигает высококачественного переноса стиля путем применения стиля опорных изображений к новому содержанию
  • Генерация на основе идентичности: Выполняет стилизацию с сохранением характеристик идентичности, особенно подходит для стилизации портретов
  • Совместная генерация стиль-субъект: Одновременно управляет субъектом и стилем для достижения сложных творческих выражений
  • Смешанная генерация нескольких стилей: Поддерживает применение слияния нескольких стилей

Связанные ссылки

Нативный рабочий процесс ByteDance USO ComfyUI

Loading...

1. Рабочий процесс и вход

Загрузите изображение ниже и перетащите его в ComfyUI для загрузки соответствующего рабочего процесса.

Workflow

Используйте изображение ниже в качестве входного изображения.

input

2. Ссылки на модели

checkpoints

loras

model_patches

clip_visions

Загрузите все модели и поместите их в следующие каталоги:

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 checkpoints/
│   │   └── flux1-dev-fp8.safetensors
│   ├── 📂 loras/
│   │   └── uso-flux1-dit-lora-v1.safetensors
│   ├── 📂 model_patches/
│   │   └── uso-flux1-projector-v1.safetensors
│   ├── 📂 clip_visions/
│   │   └── sigclip_vision_patch14_384.safetensors

3. Инструкции по рабочему процессу

Workflow

  1. Загрузка моделей:
    • 1.1 Убедитесь, что в узле Load Checkpoint загружена flux1-dev-fp8.safetensors
    • 1.2 Убедитесь, что в узле LoraLoaderModelOnly загружена dit_lora.safetensors
    • 1.3 Убедитесь, что в узле ModelPatchLoader загружена projector.safetensors
    • 1.4 Убедитесь, что в узле Load CLIP Vision загружена sigclip_vision_patch14_384.safetensors
  2. Ссылка на содержание:
    • 2.1 Нажмите Upload, чтобы загрузить входное изображение, которое мы предоставили
    • 2.2 Узел ImageScaleToMaxDimension масштабирует ваше входное изображение для ссылки на содержание, 512px сохранит больше черт характера, но если вы используете только голову персонажа в качестве входных данных, финальное выходное изображение часто имеет проблемы, такие как персонаж, занимающий слишком много места. Установка на 1024px дает гораздо лучшие результаты.
  3. В примере мы используем только входное изображение ссылка на содержание. Если вы хотите использовать входное изображение ссылка на стиль, вы можете использовать Ctrl-B, чтобы обойти отмеченную группу узлов.
  4. Напишите свой запрос или оставьте по умолчанию
  5. Установите размер изображения, если это необходимо
  6. Узел EasyCache предназначен для ускорения вывода, но также жертвует некоторым качеством и деталями. Вы можете обойти его (Ctrl+B), если не хотите его использовать.
  7. Нажмите кнопку Run или используйте сочетание клавиш Ctrl(Cmd) + Enter для запуска рабочего процесса

4. Дополнительные примечания

  1. Только ссылка на стиль:

Мы также предоставляем рабочий процесс, который использует только ссылку на стиль в том же рабочем процессе, который мы предоставили

Workflow Единственное отличие в том, что мы заменили узел ссылка на содержание и используем только узел Empty Latent Image.

  1. Вы также можете обойти всю группу Ссылка на стиль и использовать рабочий процесс как рабочий процесс текст-в-изображение, что означает, что этот рабочий процесс имеет 4 вариации:
  • Генерация на основе субъекта: Использовать только ссылку на содержание (субъект)
  • Генерация на основе стиля: Использовать только ссылку на стиль
  • Совместная генерация стиль-субъект: Смешанная ссылка на содержание и стиль
  • Генерация текст-в-изображение: Как стандартный рабочий процесс текст-в-изображение