Black Forest Labs выпускает открытую версию FLUX.1 Krea [dev] с нативной поддержкой ComfyUI
31.07.2025
Выпущен OmniGen2: унифицированная модель понимания и генерации изображений с инструкциями на естественном языке
Команда VectorSpaceLab официально выпустила OmniGen2, мощную многомодальную модель генерации изображений. В отличие от своего предшественника OmniGen v1, OmniGen2 имеет дизайн двойного пути декодирования для текстовых и визуальных модальностей, используя независимые параметры и развязанный визуальный токенизатор, достигая значительных улучшений производительности в редактировании изображений.
Основные возможности
OmniGen2 обладает четырьмя основными возможностями, с особой превосходностью в редактировании изображений:
Редактирование изображений, управляемое инструкциями на естественном языке
Изюминкой OmniGen2 является его поддержка точного локального редактирования изображений через инструкции на естественном языке. Пользователи могут просто описать желаемые изменения, и модель может точно выполнять различные сложные задачи редактирования:
- Изменение одежды: Такие как “Изменить платье на синее”
- Настройка действий: Такие как “Поднять руку”, “Заставить его улыбнуться”
- Обработка фона: Такие как “Изменить фон на классную комнату”
- Добавление объектов: Такие как “Добавить рыбацкую шляпу на голову женщины”
- Замена объектов: Такие как “Заменить меч на молоток”
- Удаление объектов: Такие как “Удалить кошку”
- Преобразование стиля: Такие как “Сгенерировать фигурку в стиле аниме на основе оригинального изображения”
Генерация изображений из текста
Модель может генерировать высококачественные, эстетически приятные изображения на основе текстовых описаний, поддерживая различные творческие сценарии.
Генерация в контексте
OmniGen2 имеет способность обрабатывать и гибко комбинировать разнообразные входы, включая людей, эталонные объекты и сцены, производя новые и связные визуальные выходы.
Визуальное понимание
Наследует мощные возможности визуального понимания от своей основы Qwen-VL-2.5, способна интерпретировать и анализировать содержимое изображений.
Технические преимущества
OmniGen2 достигает передовой производительности в редактировании изображений среди моделей с открытым исходным кодом, со следующими преимуществами:
- Более точный контроль редактирования: Детальные изменения изображений через инструкции на естественном языке
- Высокая эффективность ресурсов: Предоставляет опции выгрузки на CPU, поддерживая устройства с ограниченным VRAM
- Поддержка многоязычности: Хотя английский работает лучше всего, поддерживает многоязычные входы
- Простота использования: Предоставляет простые API интерфейсы и онлайн демонстрации
Системные требования и использование
OmniGen2 нативно требует NVIDIA RTX 3090 или эквивалентную GPU с примерно 17GB VRAM. Для устройств с меньшим VRAM можно включить функциональность выгрузки на CPU для запуска модели.
Модель поддерживает несколько методов использования:
- Инструменты командной строки
- Веб-интерфейс Gradio
- Jupyter notebooks
- Онлайн платформы демонстрации
Рекомендации по использованию
Для оптимальных результатов пользователям рекомендуется:
- Использовать высококачественные изображения: Предоставлять четкие изображения, предпочтительно с разрешением больше 512×512 пикселей
- Детальные описания инструкций: Четко описывать, что изменить и ожидаемые результаты
- Использовать английские подсказки: Модель работает лучше всего с английскими подсказками
- Настраивать параметры: Настраивать силу текстового руководства и силу руководства изображения в зависимости от типа задачи
Технические ограничения
Текущая версия имеет некоторые ограничения:
- Модель может иногда не полностью следовать инструкциям; рекомендуется генерировать несколько изображений для выбора
- Не может автоматически определять размер выходного изображения, по умолчанию 1024×1024
- При обработке нескольких изображений требуется ручная установка размера выхода для соответствия цели редактирования
Связанные ссылки
- Домашняя страница проекта: https://vectorspacelab.github.io/OmniGen2
- Репозиторий GitHub: https://github.com/VectorSpaceLab/OmniGen2
- Загрузка модели: https://huggingface.co/OmniGen2/OmniGen2
- Онлайн демо: https://huggingface.co/spaces/OmniGen2/OmniGen2
- Техническая статья: https://arxiv.org/abs/2506.18871
Как проект с открытым исходным кодом, OmniGen2 предоставляет мощный и эффективный базовый инструмент для исследователей и разработчиков, исследующих контролируемый и персонализированный генеративный ИИ. Команда указывает, что они выпустят код обучения и наборы данных для предоставления большей поддержки сообществу.