Выпущен OmniGen2: унифицированная модель понимания и генерации изображений с инструкциями на естественном языке

Команда VectorSpaceLab официально выпустила OmniGen2, мощную многомодальную модель генерации изображений. В отличие от своего предшественника OmniGen v1, OmniGen2 имеет дизайн двойного пути декодирования для текстовых и визуальных модальностей, используя независимые параметры и развязанный визуальный токенизатор, достигая значительных улучшений производительности в редактировании изображений.

Основные возможности

OmniGen2 обладает четырьмя основными возможностями, с особой превосходностью в редактировании изображений:

Редактирование изображений, управляемое инструкциями на естественном языке

Изюминкой OmniGen2 является его поддержка точного локального редактирования изображений через инструкции на естественном языке. Пользователи могут просто описать желаемые изменения, и модель может точно выполнять различные сложные задачи редактирования:

Изменение одежды: Такие как "Изменить платье на синее"
Настройка действий: Такие как "Поднять руку", "Заставить его улыбнуться"
Обработка фона: Такие как "Изменить фон на классную комнату"
Добавление объектов: Такие как "Добавить рыбацкую шляпу на голову женщины"
Замена объектов: Такие как "Заменить меч на молоток"
Удаление объектов: Такие как "Удалить кошку"
Преобразование стиля: Такие как "Сгенерировать фигурку в стиле аниме на основе оригинального изображения"

Возможности редактирования изображений OmniGen2

Генерация изображений из текста

Модель может генерировать высококачественные, эстетически приятные изображения на основе текстовых описаний, поддерживая различные творческие сценарии.

Генерация в контексте

OmniGen2 имеет способность обрабатывать и гибко комбинировать разнообразные входы, включая людей, эталонные объекты и сцены, производя новые и связные визуальные выходы.

Возможности генерации в контексте OmniGen2

Визуальное понимание

Наследует мощные возможности визуального понимания от своей основы Qwen-VL-2.5, способна интерпретировать и анализировать содержимое изображений.

Технические преимущества

OmniGen2 достигает передовой производительности в редактировании изображений среди моделей с открытым исходным кодом, со следующими преимуществами:

Более точный контроль редактирования: Детальные изменения изображений через инструкции на естественном языке
Высокая эффективность ресурсов: Предоставляет опции выгрузки на CPU, поддерживая устройства с ограниченным VRAM
Поддержка многоязычности: Хотя английский работает лучше всего, поддерживает многоязычные входы
Простота использования: Предоставляет простые API интерфейсы и онлайн демонстрации

Системные требования и использование

OmniGen2 нативно требует NVIDIA RTX 3090 или эквивалентную GPU с примерно 17GB VRAM. Для устройств с меньшим VRAM можно включить функциональность выгрузки на CPU для запуска модели.

Модель поддерживает несколько методов использования:

Инструменты командной строки
Веб-интерфейс Gradio
Jupyter notebooks
Онлайн платформы демонстрации

Технические ограничения

Текущая версия имеет некоторые ограничения:

Модель может иногда не полностью следовать инструкциям; рекомендуется генерировать несколько изображений для выбора
Не может автоматически определять размер выходного изображения, по умолчанию 1024×1024
При обработке нескольких изображений требуется ручная установка размера выхода для соответствия цели редактирования

Связанные ссылки

Домашняя страница проекта: https://vectorspacelab.github.io/OmniGen2
Репозиторий GitHub: https://github.com/VectorSpaceLab/OmniGen2
Загрузка модели: https://huggingface.co/OmniGen2/OmniGen2
Онлайн демо: https://huggingface.co/spaces/OmniGen2/OmniGen2
Техническая статья: https://arxiv.org/abs/2506.18871

Как проект с открытым исходным кодом, OmniGen2 предоставляет мощный и эффективный базовый инструмент для исследователей и разработчиков, исследующих контролируемый и персонализированный генеративный ИИ. Команда указывает, что они выпустят код обучения и наборы данных для предоставления большей поддержки сообществу.