Skip to content
ComfyUI Wiki
Помогите создать лучшую базу знаний ComfyUI Стать спонсором
НовостиByteDance выпускает UNO: Расширение возможностей генерации от меньшего к большему

ByteDance выпускает UNO: Расширение возможностей генерации от меньшего к большему

Команда ByteDance Creative Intelligence недавно выпустила универсальный фреймворк генерации изображений под названием UNO, который построен на основной концепции “Обобщения от меньшего к большему” и разблокирует большую управляемость через генерацию в контексте, достигая генерации высококачественных изображений от одного до множественных объектов.

Фреймворк UNO предоставляет создателям контента более гибкие и мощные инструменты, обеспечивая точный контроль в сложных сценах, одновременно сохраняя характеристики множественных объектов, делая изображения, сгенерированные ИИ, более согласованными с намерениями создателей.

Демонстрация модели UNO

Ключевые проблемы, которые решаются

Традиционные модели генерации изображений ИИ сталкиваются с двумя основными проблемами при обработке сцен с множественными конкретными объектами:

  1. Проблема масштабируемости данных: Расширение от наборов данных с одним объектом к наборам данных с множественными объектами особенно сложно, поскольку высококачественные, многоугольные, согласованные по объекту парные данные трудно получить в масштабе
  2. Проблема расширяемости объекта: Существующие методы в основном сосредоточены на генерации одного объекта и с трудом адаптируются к сложным требованиям сценариев с множественными объектами

UNO решает эти проблемы через уникальные подходы, достигая более согласованных и управляемых результатов генерации изображений.

Объяснение технических принципов

Фреймворк UNO вводит две ключевые технические инновации:

  • Прогрессивное кросс-модальное выравнивание: Двухэтапная стратегия обучения

    • Первый этап: Тонкая настройка предобученной модели T2I с использованием сгенерированных в контексте данных одного объекта, преобразуя её в модель S2I (Subject-to-Image)
    • Второй этап: Дальнейшее обучение с сгенерированными парными данными множественных объектов для улучшения способности модели обрабатывать сложные сцены
  • Универсальное ротационное позиционное встраивание (UnoPE): Специальная техника позиционного кодирования, которая эффективно решает проблемы путаницы атрибутов при расширении визуального контроля объекта, позволяя модели точно различать и сохранять характеристики множественных объектов

Демонстрация простого случая UNO

Пайплайн синтеза высокосогласованных данных

Одной из основных инноваций UNO является его пайплайн синтеза высокосогласованных данных:

  • Использование присущих возможностей генерации в контексте Diffusion Transformers: Полное использование потенциала текущих диффузионных моделей
  • Генерация высокосогласованных парных данных множественных объектов: Обеспечение качества и согласованности обучающих данных через специфические стратегии генерации данных
  • Итеративный процесс обучения: Прогрессивная эволюция от моделей текст-в-изображение к сложным моделям, обрабатывающим множественные условия изображений

Этот подход не только решает проблему приобретения данных, но и улучшает качество и согласованность результатов генерации.

Практические сценарии применения

Модель UNO демонстрирует разнообразные практические возможности, применимые к:

  • Настраиваемая генерация множественных объектов: Размещение множественных конкретных объектов в одной сцене при сохранении их индивидуальных характеристик
  • Виртуальная примерка и демонстрация продуктов: Показ конкретных продуктов или услуг в различных средах
  • Настраиваемый контент бренда: Интеграция элементов бренда в различные сцены при сохранении согласованности бренда
  • Креативный дизайн и производство контента: Предоставление дизайнерам и создателям контента более богатых креативных возможностей

Возможности обобщения

Модель UNO демонстрирует мощные возможности обобщения, унифицируя различные задачи:

  • Переход от одного объекта к множественным объектам: Расширение от простых сцен к сложным сценариям
  • Адаптация к различным стилям: Адаптация к различным стилевым требованиям при сохранении характеристик объекта
  • Интеграция множественных креативных задач: Одна модель обрабатывает задачи, которые ранее требовали множественных специализированных моделей

Онлайн-опыт

Вы можете лично испытать мощные возможности UNO через следующий интерфейс:

Онлайн-демо модели ByteDance UNO

Технические параметры и информация об открытом исходном коде

Модель UNO разработана на основе FLUX.1 и открыта командой ByteDance, включая код обучения, код вывода и веса модели.

Проект доступен на GitHub, позволяя исследователям и разработчикам свободно получать доступ и использовать технологию. Код проекта следует лицензии Apache 2.0, в то время как веса модели выпущены под лицензией CC BY-NC 4.0. Стоит отметить, что любые модели, связанные с базовой моделью FLUX.1-dev, должны соответствовать оригинальным условиям лицензии.

Связанные ссылки