ByteDance выпустила USO: унифицированную модель генерации изображений с управлением стилем и субъектом
Команда UXO лаборатории интеллектуального творчества ByteDance выпустила модель USO (Unified Style and Subject-Driven Generation) - это унифицированная модель настраиваемой генерации с оптимизацией стиля и субъекта. USO может свободно комбинировать любые субъекты и стили, сохраняя согласованность субъектов и достигая высококачественных эффектов переноса стиля.
Особенности модели
Модель USO решает проблему противостояния задач генерации, управляемых стилем и субъектом, в существующих технологиях. Традиционные методы обычно рассматривают эти две задачи как независимые: генерация, управляемая стилем, приоритетно учитывает сходство стилей, а генерация, управляемая субъектом, подчеркивает согласованность субъекта, что приводит к очевидному противостоянию между ними.
USO решает эту проблему через унифицированную рамку, делая разъединение и рекомбинацию контента и стиля своей основной целью. Модель использует двухэтапный метод обучения:
Первый этап: выравнивание встраиваний SigLIP через обучение с выравниванием стилей для получения модели с возможностями стиля Второй этап: декуплинг кодировщика условий и обучение на триплетных данных для реализации совместной условной генерации
Основные функции
Модель USO поддерживает несколько режимов генерации и может свободно комбинировать любые субъекты и стили:
Генерация, управляемая субъектом
Сохраняет согласованность идентичности субъекта, подходит для стилизации конкретных субъектов, таких как люди, объекты и т.д. Пользователи могут предоставить эталонное изображение, содержащее конкретный субъект, модель сохранит характеристики идентичности этого субъекта, одновременно применяя новый стиль или сцену.
Генерация, управляемая идентичностью
Выполняет стилизацию с сохранением характеристик идентичности. Этот режим особенно подходит для стилизации портретов, сохраняя черты лица, выражение и информацию идентичности, одновременно изменяя художественный стиль, одежду или фоновую среду.
Генерация, управляемая стилем
Реализует высококачественный перенос стиля, применяя стиль эталонного изображения к новому контенту. Пользователи могут предоставить изображение эталонного стиля, модель применит этот художественный стиль к контенту, описанному в тексте, создавая новые изображения с определенным стилем.
Генерация с сочетанием нескольких стилей
Поддерживает применение сочетания нескольких стилей. Пользователи могут одновременно предоставить несколько эталонных изображений с разными стилями, модель объединит эти элементы стилей, создавая уникальные эффекты смешанного стиля.
Совместная генерация стиля и субъекта
Одновременно управляет субъектом и стилем, реализуя сложные творческие выражения. Этот режим сочетает преимущества генерации, управляемой субъектом и стилем, пользователи могут указать конкретный субъект и контролировать художественный стиль, достигая более точного творческого контроля.
Принцип работы
USO использует двухэтапный метод обучения: на первом этапе выравниваются встраивания SigLIP через обучение с выравниванием стилей для получения модели с возможностями стиля; на втором этапе декуплинг кодировщика условий и обучение на триплетных данных для реализации совместной условной генерации. Наконец, через парадигму обучения с вознаграждением за стиль контролируются оба этапа, получая более сильную унифицированную модель.
Сравнение с другими методами
Сравнение генерации, управляемой субъектом
Сравнение генерации, управляемой стилем
Сравнение генерации, управляемой идентичностью
Сравнение совместной генерации стиля и субъекта
Датасет и обучение
Исследовательская группа построила крупномасштабный триплетный датасет, содержащий изображения контента, изображения стилей и соответствующие им стилизованные изображения контента. Через схему обучения с декуплингом модель может одновременно обрабатывать две цели: выравнивание стилей и декуплинг стиля контента.
Результаты производительности
Результаты экспериментов показывают, что USO достигает наилучшей производительности в двух измерениях - согласованности субъектов и сходстве стилей среди моделей с открытым исходным кодом. Модель может генерировать естественные, не пластиковые портреты, сохраняя высокую согласованность субъектов и сильную верность стиля.
Исследовательская группа также выпустила бенчмарк USO-Bench - это первый многометрический бенчмарк, одновременно оценивающий сходство стилей и верность субъектов, предоставляющий стандартизированный инструмент оценки для соответствующих исследований.
Открытый исходный код и использование
Адрес проекта:
Выпуск USO приносит новое решение в область генерации изображений с ИИ, особенно в балансе между переносом стиля и сохранением субъекта. Открытый исходный код модели будет способствовать развитию соответствующих исследований и предоставлять мощную поддержку инструментов для сообщества с открытым исходным кодом.