Skip to content
ComfyUI Wiki
Помогите создать лучшую базу знаний ComfyUI Стать спонсором
НовостиВыпущен OmniGen2: унифицированная модель понимания и генерации изображений с инструкциями на естественном языке

Выпущен OmniGen2: унифицированная модель понимания и генерации изображений с инструкциями на естественном языке

Команда VectorSpaceLab официально выпустила OmniGen2, мощную многомодальную модель генерации изображений. В отличие от своего предшественника OmniGen v1, OmniGen2 имеет дизайн двойного пути декодирования для текстовых и визуальных модальностей, используя независимые параметры и развязанный визуальный токенизатор, достигая значительных улучшений производительности в редактировании изображений.

Общие возможности OmniGen2

Основные возможности

OmniGen2 обладает четырьмя основными возможностями, с особой превосходностью в редактировании изображений:

Редактирование изображений, управляемое инструкциями на естественном языке

Изюминкой OmniGen2 является его поддержка точного локального редактирования изображений через инструкции на естественном языке. Пользователи могут просто описать желаемые изменения, и модель может точно выполнять различные сложные задачи редактирования:

  • Изменение одежды: Такие как “Изменить платье на синее”
  • Настройка действий: Такие как “Поднять руку”, “Заставить его улыбнуться”
  • Обработка фона: Такие как “Изменить фон на классную комнату”
  • Добавление объектов: Такие как “Добавить рыбацкую шляпу на голову женщины”
  • Замена объектов: Такие как “Заменить меч на молоток”
  • Удаление объектов: Такие как “Удалить кошку”
  • Преобразование стиля: Такие как “Сгенерировать фигурку в стиле аниме на основе оригинального изображения”

Возможности редактирования изображений OmniGen2

Генерация изображений из текста

Модель может генерировать высококачественные, эстетически приятные изображения на основе текстовых описаний, поддерживая различные творческие сценарии.

Генерация в контексте

OmniGen2 имеет способность обрабатывать и гибко комбинировать разнообразные входы, включая людей, эталонные объекты и сцены, производя новые и связные визуальные выходы.

Возможности генерации в контексте OmniGen2

Визуальное понимание

Наследует мощные возможности визуального понимания от своей основы Qwen-VL-2.5, способна интерпретировать и анализировать содержимое изображений.

Технические преимущества

OmniGen2 достигает передовой производительности в редактировании изображений среди моделей с открытым исходным кодом, со следующими преимуществами:

  • Более точный контроль редактирования: Детальные изменения изображений через инструкции на естественном языке
  • Высокая эффективность ресурсов: Предоставляет опции выгрузки на CPU, поддерживая устройства с ограниченным VRAM
  • Поддержка многоязычности: Хотя английский работает лучше всего, поддерживает многоязычные входы
  • Простота использования: Предоставляет простые API интерфейсы и онлайн демонстрации

Системные требования и использование

OmniGen2 нативно требует NVIDIA RTX 3090 или эквивалентную GPU с примерно 17GB VRAM. Для устройств с меньшим VRAM можно включить функциональность выгрузки на CPU для запуска модели.

Модель поддерживает несколько методов использования:

  • Инструменты командной строки
  • Веб-интерфейс Gradio
  • Jupyter notebooks
  • Онлайн платформы демонстрации

Рекомендации по использованию

Для оптимальных результатов пользователям рекомендуется:

  1. Использовать высококачественные изображения: Предоставлять четкие изображения, предпочтительно с разрешением больше 512×512 пикселей
  2. Детальные описания инструкций: Четко описывать, что изменить и ожидаемые результаты
  3. Использовать английские подсказки: Модель работает лучше всего с английскими подсказками
  4. Настраивать параметры: Настраивать силу текстового руководства и силу руководства изображения в зависимости от типа задачи

Технические ограничения

Текущая версия имеет некоторые ограничения:

  • Модель может иногда не полностью следовать инструкциям; рекомендуется генерировать несколько изображений для выбора
  • Не может автоматически определять размер выходного изображения, по умолчанию 1024×1024
  • При обработке нескольких изображений требуется ручная установка размера выхода для соответствия цели редактирования

Связанные ссылки

Как проект с открытым исходным кодом, OmniGen2 предоставляет мощный и эффективный базовый инструмент для исследователей и разработчиков, исследующих контролируемый и персонализированный генеративный ИИ. Команда указывает, что они выпустят код обучения и наборы данных для предоставления большей поддержки сообществу.