Skip to content
ComfyUI Wiki
Помогите создать лучшую базу знаний ComfyUI Стать спонсором
НовостиByteDance выпустила USO: унифицированную модель генерации изображений с управлением стилем и субъектом

ByteDance выпустила USO: унифицированную модель генерации изображений с управлением стилем и субъектом

Демонстрация модели USO

Команда UXO лаборатории интеллектуального творчества ByteDance выпустила модель USO (Unified Style and Subject-Driven Generation) - это унифицированная модель настраиваемой генерации с оптимизацией стиля и субъекта. USO может свободно комбинировать любые субъекты и стили, сохраняя согласованность субъектов и достигая высококачественных эффектов переноса стиля.

Особенности модели

Модель USO решает проблему противостояния задач генерации, управляемых стилем и субъектом, в существующих технологиях. Традиционные методы обычно рассматривают эти две задачи как независимые: генерация, управляемая стилем, приоритетно учитывает сходство стилей, а генерация, управляемая субъектом, подчеркивает согласованность субъекта, что приводит к очевидному противостоянию между ними.

USO решает эту проблему через унифицированную рамку, делая разъединение и рекомбинацию контента и стиля своей основной целью. Модель использует двухэтапный метод обучения:

Первый этап: выравнивание встраиваний SigLIP через обучение с выравниванием стилей для получения модели с возможностями стиля Второй этап: декуплинг кодировщика условий и обучение на триплетных данных для реализации совместной условной генерации

Основные функции

Модель USO поддерживает несколько режимов генерации и может свободно комбинировать любые субъекты и стили:

Генерация, управляемая субъектом

Сохраняет согласованность идентичности субъекта, подходит для стилизации конкретных субъектов, таких как люди, объекты и т.д. Пользователи могут предоставить эталонное изображение, содержащее конкретный субъект, модель сохранит характеристики идентичности этого субъекта, одновременно применяя новый стиль или сцену.

Генерация, управляемая идентичностью

Выполняет стилизацию с сохранением характеристик идентичности. Этот режим особенно подходит для стилизации портретов, сохраняя черты лица, выражение и информацию идентичности, одновременно изменяя художественный стиль, одежду или фоновую среду.

Генерация, управляемая стилем

Реализует высококачественный перенос стиля, применяя стиль эталонного изображения к новому контенту. Пользователи могут предоставить изображение эталонного стиля, модель применит этот художественный стиль к контенту, описанному в тексте, создавая новые изображения с определенным стилем.

Генерация с сочетанием нескольких стилей

Поддерживает применение сочетания нескольких стилей. Пользователи могут одновременно предоставить несколько эталонных изображений с разными стилями, модель объединит эти элементы стилей, создавая уникальные эффекты смешанного стиля.

Совместная генерация стиля и субъекта

Одновременно управляет субъектом и стилем, реализуя сложные творческие выражения. Этот режим сочетает преимущества генерации, управляемой субъектом и стилем, пользователи могут указать конкретный субъект и контролировать художественный стиль, достигая более точного творческого контроля.

Принцип работы

Схема работы USO

USO использует двухэтапный метод обучения: на первом этапе выравниваются встраивания SigLIP через обучение с выравниванием стилей для получения модели с возможностями стиля; на втором этапе декуплинг кодировщика условий и обучение на триплетных данных для реализации совместной условной генерации. Наконец, через парадигму обучения с вознаграждением за стиль контролируются оба этапа, получая более сильную унифицированную модель.

Сравнение с другими методами

Сравнение генерации, управляемой субъектом

Сравнение генерации, управляемой субъектом

Сравнение генерации, управляемой стилем

Сравнение генерации, управляемой стилем

Сравнение генерации, управляемой идентичностью

Сравнение генерации, управляемой идентичностью

Сравнение совместной генерации стиля и субъекта

Сравнение совместной генерации стиля и субъекта

Датасет и обучение

Исследовательская группа построила крупномасштабный триплетный датасет, содержащий изображения контента, изображения стилей и соответствующие им стилизованные изображения контента. Через схему обучения с декуплингом модель может одновременно обрабатывать две цели: выравнивание стилей и декуплинг стиля контента.

Результаты производительности

Результаты экспериментов показывают, что USO достигает наилучшей производительности в двух измерениях - согласованности субъектов и сходстве стилей среди моделей с открытым исходным кодом. Модель может генерировать естественные, не пластиковые портреты, сохраняя высокую согласованность субъектов и сильную верность стиля.

Исследовательская группа также выпустила бенчмарк USO-Bench - это первый многометрический бенчмарк, одновременно оценивающий сходство стилей и верность субъектов, предоставляющий стандартизированный инструмент оценки для соответствующих исследований.

Открытый исходный код и использование

Адрес проекта:

Выпуск USO приносит новое решение в область генерации изображений с ИИ, особенно в балансе между переносом стиля и сохранением субъекта. Открытый исходный код модели будет способствовать развитию соответствующих исследований и предоставлять мощную поддержку инструментов для сообщества с открытым исходным кодом.