Black Forest Labs выпускает открытую версию FLUX.1 Krea [dev] с нативной поддержкой ComfyUI
31.07.2025
ByteDance выпускает UNO: Расширение возможностей генерации от меньшего к большему
Команда ByteDance Creative Intelligence недавно выпустила универсальный фреймворк генерации изображений под названием UNO, который построен на основной концепции “Обобщения от меньшего к большему” и разблокирует большую управляемость через генерацию в контексте, достигая генерации высококачественных изображений от одного до множественных объектов.
Фреймворк UNO предоставляет создателям контента более гибкие и мощные инструменты, обеспечивая точный контроль в сложных сценах, одновременно сохраняя характеристики множественных объектов, делая изображения, сгенерированные ИИ, более согласованными с намерениями создателей.
Ключевые проблемы, которые решаются
Традиционные модели генерации изображений ИИ сталкиваются с двумя основными проблемами при обработке сцен с множественными конкретными объектами:
- Проблема масштабируемости данных: Расширение от наборов данных с одним объектом к наборам данных с множественными объектами особенно сложно, поскольку высококачественные, многоугольные, согласованные по объекту парные данные трудно получить в масштабе
- Проблема расширяемости объекта: Существующие методы в основном сосредоточены на генерации одного объекта и с трудом адаптируются к сложным требованиям сценариев с множественными объектами
UNO решает эти проблемы через уникальные подходы, достигая более согласованных и управляемых результатов генерации изображений.
Объяснение технических принципов
Фреймворк UNO вводит две ключевые технические инновации:
-
Прогрессивное кросс-модальное выравнивание: Двухэтапная стратегия обучения
- Первый этап: Тонкая настройка предобученной модели T2I с использованием сгенерированных в контексте данных одного объекта, преобразуя её в модель S2I (Subject-to-Image)
- Второй этап: Дальнейшее обучение с сгенерированными парными данными множественных объектов для улучшения способности модели обрабатывать сложные сцены
-
Универсальное ротационное позиционное встраивание (UnoPE): Специальная техника позиционного кодирования, которая эффективно решает проблемы путаницы атрибутов при расширении визуального контроля объекта, позволяя модели точно различать и сохранять характеристики множественных объектов
Пайплайн синтеза высокосогласованных данных
Одной из основных инноваций UNO является его пайплайн синтеза высокосогласованных данных:
- Использование присущих возможностей генерации в контексте Diffusion Transformers: Полное использование потенциала текущих диффузионных моделей
- Генерация высокосогласованных парных данных множественных объектов: Обеспечение качества и согласованности обучающих данных через специфические стратегии генерации данных
- Итеративный процесс обучения: Прогрессивная эволюция от моделей текст-в-изображение к сложным моделям, обрабатывающим множественные условия изображений
Этот подход не только решает проблему приобретения данных, но и улучшает качество и согласованность результатов генерации.
Практические сценарии применения
Модель UNO демонстрирует разнообразные практические возможности, применимые к:
- Настраиваемая генерация множественных объектов: Размещение множественных конкретных объектов в одной сцене при сохранении их индивидуальных характеристик
- Виртуальная примерка и демонстрация продуктов: Показ конкретных продуктов или услуг в различных средах
- Настраиваемый контент бренда: Интеграция элементов бренда в различные сцены при сохранении согласованности бренда
- Креативный дизайн и производство контента: Предоставление дизайнерам и создателям контента более богатых креативных возможностей
Возможности обобщения
Модель UNO демонстрирует мощные возможности обобщения, унифицируя различные задачи:
- Переход от одного объекта к множественным объектам: Расширение от простых сцен к сложным сценариям
- Адаптация к различным стилям: Адаптация к различным стилевым требованиям при сохранении характеристик объекта
- Интеграция множественных креативных задач: Одна модель обрабатывает задачи, которые ранее требовали множественных специализированных моделей
Онлайн-опыт
Вы можете лично испытать мощные возможности UNO через следующий интерфейс:
Технические параметры и информация об открытом исходном коде
Модель UNO разработана на основе FLUX.1 и открыта командой ByteDance, включая код обучения, код вывода и веса модели.
Проект доступен на GitHub, позволяя исследователям и разработчикам свободно получать доступ и использовать технологию. Код проекта следует лицензии Apache 2.0, в то время как веса модели выпущены под лицензией CC BY-NC 4.0. Стоит отметить, что любые модели, связанные с базовой моделью FLUX.1-dev, должны соответствовать оригинальным условиям лицензии.