Полное руководство по рабочим процессам Qwen-Image ComfyUI: нативный, GGUF, Nunchaku
Qwen-Image - это базовая модель генерации изображений, разработанная командой Tongyi Lab Alibaba, использующая архитектуру MMDiT (мультимодальный диффузионный трансформер) с 20 миллиардами параметров, опубликованная с открытым исходным кодом по лицензии Apache 2.0. Модель демонстрирует уникальные технические преимущества в области генерации изображений, особенно выделяясь в рендеринге текста и редактировании изображений.
Основные характеристики:
- Возможность рендеринга многоязычного текста: модель может точно генерировать изображения, содержащие английский, китайский, корейский, японский и другие языки, с четким и читаемым текстом, который гармонирует со стилем изображения
- Поддержка богатых художественных стилей: от реалистичных стилей до художественного творчества, от аниме-стилей до современного дизайна, модель может гибко переключаться между различными визуальными стилями в зависимости от подсказок
- Точная функция редактирования изображений: поддерживает локальные изменения, преобразования стиля и добавление контента к существующим изображениям, сохраняя общую визуальную согласованность
Связанные ресурсы:
Руководство по нативному рабочему процессу Qwen-Image ComfyUI
В рабочем процессе, приложенном к этому документу, используются три различных модели:
- Оригинальная модель Qwen-Image fp8_e4m3fn
- Ускоренная версия за 8 шагов: оригинальная модель Qwen-Image fp8_e4m3fn с использованием LoRA lightx2v за 8 шагов
- Дистиллированная версия: дистиллированная модель Qwen-Image fp8_e4m3fn
Справка по использованию VRAM GPU: RTX4090D 24GB
Используемая модель | Использование VRAM | Первая генерация | Вторая генерация |
---|---|---|---|
fp8_e4m3fn | 86% | ≈ 94s | ≈ 71s |
fp8_e4m3fn с LoRA lightx2v за 8 шагов | 86% | ≈ 55s | ≈ 34s |
Дистиллированная версия fp8_e4m3fn | 86% | ≈ 69s | ≈ 36s |
1. Файл рабочего процесса
После обновления ComfyUI вы можете найти файл рабочего процесса в шаблонах или перетащить рабочий процесс ниже в ComfyUI для загрузки
Скачать официальный рабочий процесс в формате JSON
Дистиллированная версия
2. Скачивание модели
Версии, которые вы можете найти в репозитории ComfyOrg
- Qwen-Image_bf16 (40,9 ГБ)
- Qwen-Image_fp8 (20,4 ГБ)
- Дистиллированная версия (неофициальная, только 15 шагов)
Все модели можно найти на Huggingface или ModelScope
Модель диффузии
Qwen_image_distill
- Оригинальный автор дистиллированной версии рекомендует 15 шагов cfg 1.0
- Тесты показывают, что эта дистиллированная версия хорошо работает при 10 шагах cfg 1.0; выбирайте euler или res_multistep в зависимости от желаемого типа изображения
LoRA
Текстовый энкодер
VAE
Расположение хранения моделей
📂 ComfyUI/
├── 📂 models/
│ ├── 📂 diffusion_models/
│ │ ├── qwen_image_fp8_e4m3fn.safetensors
│ │ └── qwen_image_distill_full_fp8_e4m3fn.safetensors ## Дистиллированная версия
│ ├── 📂 loras/
│ │ └── Qwen-Image-Lightning-8steps-V1.0.safetensors ## Модель LoRA ускорения за 8 шагов
│ ├── 📂 vae/
│ │ └── qwen_image_vae.safetensors
│ └── 📂 text_encoders/
│ └── qwen_2.5_vl_7b_fp8_scaled.safetensors
3. Пошаговое выполнение рабочего процесса
- Убедитесь, что узел
Load Diffusion Model
загружаетqwen_image_fp8_e4m3fn.safetensors
- Убедитесь, что узел
Load CLIP
загружаетqwen_2.5_vl_7b_fp8_scaled.safetensors
- Убедитесь, что узел
Load VAE
загружаетqwen_image_vae.safetensors
- Убедитесь, что размеры изображения установлены в узле
EmptySD3LatentImage
- Установите подсказки в узле
CLIP Text Encoder
; на данный момент протестирована поддержка как минимум следующих языков: английский, китайский, корейский, японский, итальянский и т.д. - Чтобы включить LoRA ускорения lightx2v за 8 шагов, выберите его и используйте
Ctrl + B
для включения узла, а также измените настройки Ksampler в соответствии с параметрами в позиции8
- Нажмите кнопку
Queue
или используйте сочетание клавишCtrl(cmd) + Enter
, чтобы запустить рабочий процесс - Параметры настройки KSampler, соответствующие различным версиям моделей и рабочих процессов
Похоже, что дистиллированная версия модели и LoRA ускорения lightx2v за 8 шагов не могут использоваться одновременно; вы можете протестировать конкретные комбинации параметров, чтобы проверить, возможно ли совместное использование
Рабочий процесс Qwen-Image версии GGUF ComfyUI
Версия GGUF более дружелюбна для пользователей с низким объемом VRAM, и в некоторых конфигурациях весов вам потребуется около 8 ГБ VRAM для запуска Qwen-Image
Справка по использованию VRAM:
Рабочий процесс | Использование VRAM | Первая генерация | Последующие генерации |
---|---|---|---|
qwen-image-Q4_K_S.gguf | 56% | ≈ 135s | ≈ 77s |
С LoRA за 8 шагов | 56% | ≈ 100s | ≈ 45s |
Адрес модели: Qwen-Image-gguf
1. Обновление или установка пользовательских узлов
Для использования версии GGUF необходимо установить или обновить плагин ComfyUI-GGUF
Пожалуйста, обратитесь к Как установить пользовательские узлы ComfyUI или выполните поиск и установку через Manager
2. Скачивание рабочего процесса
3. Скачивание модели
Версия GGUF использует только модель диффузии, отличную от других
Пожалуйста, посетите https://huggingface.co/city96/Qwen-Image-gguf, чтобы скачать любой вес; как правило, больший размер файла означает лучшее качество, но также требует больше VRAM. В этом руководстве я буду использовать следующую версию:
📂 ComfyUI/
├── 📂 models/
│ ├── 📂 diffusion_models/
│ │ └── qwen-image-Q4_K_S.gguf # Или любую другую версию, которую вы выберете
3. Пошаговое выполнение рабочего процесса
- Убедитесь, что узел
Unet Loader(GGUF)
загружаетqwen-image-Q4_K_S.gguf
или любую другую версию, которую вы скачали- Убедитесь, что ComfyUI-GGUF установлен и обновлен
- Для
LightX2V 8Steps LoRA
по умолчанию не включено, вы можете выбрать его и использовать Ctrl+B для включения узла - Если LoRA за 8 шагов не включено, количество шагов по умолчанию равно 20; если вы включите LoRA за 8 шагов, установите его на 8
- Здесь приведена справка по установке соответствующего количества шагов
- Нажмите кнопку
Queue
или используйте сочетание клавишCtrl(cmd) + Enter
, чтобы запустить рабочий процесс
Рабочий процесс версии Nunchaku Qwen-Image
Адрес модели: nunchaku-qwen-image Адрес пользовательского узла: https://github.com/nunchaku-tech/ComfyUI-nunchaku
Ожидается поддержка Nunchaku