Руководство по использованию рабочего процесса Qwen-Image-Layered для ComfyUI

Qwen-Image-Layered — это модель генерации редактирования изображений по слоям, разработанная командой Qwen компании Alibaba, основанная на модели Qwen-Image и выпущенная под лицензией Apache 2.0 с открытым исходным кодом. Эта модель может разлагать изображения на несколько RGBA-слоев, при этом каждый слой можно редактировать независимо, не затрагивая другое содержимое изображения. Такой подход физической изоляции делает редактирование изображений более точным и последовательным.

В отличие от традиционных методов редактирования изображений, Qwen-Image-Layered обеспечивает подлинный опыт редактирования по слоям, разлагая изображения на несколько независимых RGBA-слоев. Каждый слой содержит полную информацию о цвете и прозрачности, что делает композицию слоев более естественной. Такая конструкция позволяет пользователям точно контролировать различные части изображения, не беспокоясь о том, что операции редактирования повлияют на другие области.

Основные возможности:

Способность к разложению на слои: Может разлагать изображения на несколько независимых RGBA-слоев, при этом каждый слой содержит определенные семантические или структурные компоненты, такие как объекты переднего плана, элементы фона, текст и т.д.
Независимое редактирование слоев: Поддерживает операции, такие как перекрашивание, замена содержимого, изменение текста, удаление объектов, изменение размера и перемещение для каждого слоя, при этом все операции влияют только на целевой слой
Гибкое количество слоев: Нет фиксированного ограничения на количество слоев; изображения могут быть разложены на разное количество слоев (например, 3, 4, 8 или более) по мере необходимости
Рекурсивное разложение: Поддерживает рекурсивное разложение, при котором любой слой может быть дополнительно разложен на большее количество подслоев, обеспечивая большую гибкость для сложных потребностей в редактировании

Примечание о производительности: Эта модель имеет относительно медленную скорость генерации и длительное время выполнения. На RTX Pro 6000 96GB VRAM пиковое использование памяти может достигать 45GB, при генерации 1024px требуется 120 секунд. Согласно отзывам некоторых пользователей RTX 4090, этот рабочий процесс почти полностью использует всю доступную VRAM. Пользователям с ограниченной VRAM рекомендуется использовать версию FP8 для снижения использования памяти.

Руководство по нативному рабочему процессу Qwen-Image-Layered для ComfyUI

Qwen-Image-Layered имеет нативную поддержку в ComfyUI, что позволяет пользователям напрямую использовать эту модель для редактирования изображений по слоям. Не нужно устанавливать дополнительные пользовательские узлы; просто обновите до последней версии ComfyUI.

1. Файл рабочего процесса

После обновления ComfyUI вы можете найти файл рабочего процесса в шаблонах или перетащить рабочий процесс ниже в ComfyUI для загрузки

2. Загрузка моделей

Все модели можно найти на Huggingface или ModelScope

text_encoders

qwen_2.5_vl_7b_fp8_scaled.safetensors

diffusion_models

qwen_image_layered_bf16.safetensors

vae

qwen_image_layered_vae.safetensors

Место хранения моделей

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 text_encoders/
│   │      └── qwen_2.5_vl_7b_fp8_scaled.safetensors
│   ├── 📂 diffusion_models/
│   │      └── qwen_image_layered_bf16.safetensors
│   └── 📂 vae/
│          └── qwen_image_layered_vae.safetensors

3. Версия FP8

По умолчанию мы используем версию bf16, которая требует больше VRAM. Если у вас ограниченная VRAM, вы можете использовать версию fp8 для снижения использования памяти:

qwen_image_layered_fp8mixed.safetensors

При использовании версии fp8 необходимо обновить путь к модели в узле Load Diffusion model внутри Subgraph в рабочем процессе, чтобы он указывал на файл модели версии fp8.

Версия fp8 может значительно снизить использование VRAM, сохраняя при этом хорошее качество генерации, что делает ее подходящей для пользователей с ограниченной VRAM.

4. Настройки рабочего процесса

Настройки сэмплера

Эта модель имеет относительно медленную скорость генерации и длительное время выполнения. Исходные настройки сэмплирования рекомендуют 50 шагов со значением CFG 4.0, что как минимум удвоит время генерации. Если вам нужна более быстрая генерация, вы можете уменьшить количество шагов, но это может повлиять на качество генерации. Рекомендуется сохранить настройки по умолчанию при первом использовании для достижения наилучших результатов генерации.

Размер входа

Для размера входа 640 пикселей является рекомендуемым значением, что обеспечивает хороший баланс между качеством и скоростью генерации. Для вывода высокого разрешения вы можете использовать 1024 пикселя, но обратите внимание, что большие размеры значительно увеличат время генерации и также будут потреблять больше VRAM. Рекомендуется выбрать подходящий размер в зависимости от конфигурации вашего оборудования и фактических потребностей.

Промпт (необязательно)

Текстовый промпт предназначен для описания общего содержимого входного изображения, включая элементы, которые могут быть частично скрыты (например, вы можете указать текст, скрытый за объектом переднего плана). Промпт не предназначен для явного управления семантическим содержимым отдельных слоев, а скорее для помощи модели в понимании общей структуры изображения.

Рабочий процесс версии GGUF Qwen-Image-Layered

Рабочий процесс версии GGUF ожидает обновления, пожалуйста, следите за обновлениями.