Boogu-Image-0.1-Edit: Открытое унифицированное редактирование изображений под лицензией Apache 2.0
Boogu-Image-0.1-Edit: это модель редактирования изображений под лицензией Apache 2.0 из семейства Boogu-Image, предлагающая редактирование по инструкциям с единой мультимодальной архитектурой понимания и генерации.
Обзор
Boogu-Image-0.1: это конкурентоспособное семейство моделей с открытым исходным кодом для унифицированной генерации и редактирования изображений, разработанное проектом Boogu. Семейство включает три основных варианта: Base (текст-в-изображение), Turbo (быстрая генерация в 4 шага) и Edit (редактирование изображение-в-изображение): все выпущены под лицензией Apache 2.0.
Вариант Edit специально ориентирован на редактирование по инструкциям: пользователь предоставляет исходное изображение и текстовую инструкцию, описывающую желаемое изменение, а модель генерирует отредактированный результат, сохраняя структуру и содержание исходного изображения.
Boogu-Image-0.1 достиг конкурентоспособных результатов в Boogu Arena (предпочтительная оценка по типу LM Arena), заняв высокие позиции как в сравнении с закрытыми системами, так и с ведущими открытыми аналогами при тестировании на более чем 1000 разнообразных промптов.
Ключевые особенности
| Особенность | Описание | |
-|
-|
| Задача | Редактирование изображений по инструкциям |
| Архитектура | Единое MLLM-понимание + диффузионная генерация |
| Лицензия | Apache 2.0 (полностью открытый исходный код) |
| Библиотека | Diffusers (пользовательский BooguImagePipeline) |
| Языки | Английский и китайский (оптимизировано) |
| ComfyUI | Встроенная поддержка в ComfyUI |
Архитектура модели
Boogu-Image-0.1 использует единую архитектуру мультимодального понимания и генерации, которая объединяет:
- Мультимодальную большую языковую модель (MLLM) для понимания инструкций пользователя и содержимого изображения
- Диффузионный трансформер для высококачественной генерации изображений
- VAE для кодирования/декодирования в латентном пространстве
Такой унифицированный подход позволяет модели точно следовать инструкциям, сохраняя высокое качество изображений. Вариант Edit использует понимание MLLM пространственных отношений, атрибутов объектов и инструкций по редактированию для создания согласованных изменений.
Возможности
Boogu-Image-0.1-Edit отлично справляется с различными задачами редактирования изображений:
- Замена объектов: замена объектов на изображении на основе текстового описания
- Изменение фона: изменение фона с сохранением основного объекта
- Перенос стиля: применение художественных стилей к существующим изображениям
- Локальное редактирование: изменение определённых областей по текстовой инструкции
- Двуязычная поддержка: работа как с английскими, так и с китайскими инструкциями
Интеграция с ComfyUI
Boogu-Image-0.1-Edit имеет встроенную поддержку в ComfyUI. Быстро приступить к работе можно с помощью официального рабочего процесса Boogu Image Edit.
Убедитесь, что вы обновили ComfyUI до последней версии (руководство по обновлению). Необходимые веса модели доступны в репозитории Comfy-Org/Boogu-Image на Hugging Face.
Онлайн-демонстрации
Вы можете попробовать Boogu-Image-0.1-Edit прямо в браузере:
- Демо Edit: demo-edit.boogu.org
- Демо Base: demo-base.boogu.org
- Демо Turbo: demo-turbo.boogu.org
Доступность
- Hugging Face (Edit): Boogu/Boogu-Image-0.1-Edit
- Hugging Face (Base): Boogu/Boogu-Image-0.1-Base
- GitHub: boogu-project/Boogu-Image
- Страница проекта: boogu.org
- Галерея: boogu-gallery.netlify.app
Итог
Boogu-Image-0.1-Edit привносит конкурентоспособное редактирование изображений по инструкциям в сообщество открытого кода под свободной лицензией Apache 2.0. Благодаря единой архитектуре MLLM, мощной двуязычной поддержке и готовой интеграции с ComfyUI этот проект представляет собой значительный шаг вперёд для инструментов редактирования изображений с открытым исходным кодом.