Skip to content
ComfyUI Wiki
Помогите создать лучшую базу знаний ComfyUI Стать спонсором

Полное руководство по рабочим процессам Qwen-Image ComfyUI: нативный, GGUF, Nunchaku

Qwen-Image - это базовая модель генерации изображений, разработанная командой Tongyi Lab Alibaba, использующая архитектуру MMDiT (мультимодальный диффузионный трансформер) с 20 миллиардами параметров, опубликованная с открытым исходным кодом по лицензии Apache 2.0. Модель демонстрирует уникальные технические преимущества в области генерации изображений, особенно выделяясь в рендеринге текста и редактировании изображений.

Основные характеристики:

  • Возможность рендеринга многоязычного текста: модель может точно генерировать изображения, содержащие английский, китайский, корейский, японский и другие языки, с четким и читаемым текстом, который гармонирует со стилем изображения
  • Поддержка богатых художественных стилей: от реалистичных стилей до художественного творчества, от аниме-стилей до современного дизайна, модель может гибко переключаться между различными визуальными стилями в зависимости от подсказок
  • Точная функция редактирования изображений: поддерживает локальные изменения, преобразования стиля и добавление контента к существующим изображениям, сохраняя общую визуальную согласованность

Связанные ресурсы:

Loading...

Руководство по нативному рабочему процессу Qwen-Image ComfyUI

В рабочем процессе, приложенном к этому документу, используются три различных модели:

  1. Оригинальная модель Qwen-Image fp8_e4m3fn
  2. Ускоренная версия за 8 шагов: оригинальная модель Qwen-Image fp8_e4m3fn с использованием LoRA lightx2v за 8 шагов
  3. Дистиллированная версия: дистиллированная модель Qwen-Image fp8_e4m3fn

Справка по использованию VRAM GPU: RTX4090D 24GB

Используемая модельИспользование VRAMПервая генерацияВторая генерация
fp8_e4m3fn86%≈ 94s≈ 71s
fp8_e4m3fn с LoRA lightx2v за 8 шагов86%≈ 55s≈ 34s
Дистиллированная версия fp8_e4m3fn86%≈ 69s≈ 36s

1. Файл рабочего процесса

После обновления ComfyUI вы можете найти файл рабочего процесса в шаблонах или перетащить рабочий процесс ниже в ComfyUI для загрузки Рабочий процесс Qwen-image текст в изображение

Скачать официальный рабочий процесс в формате JSON

Дистиллированная версия

2. Скачивание модели

Версии, которые вы можете найти в репозитории ComfyOrg

  • Qwen-Image_bf16 (40,9 ГБ)
  • Qwen-Image_fp8 (20,4 ГБ)
  • Дистиллированная версия (неофициальная, только 15 шагов)

Все модели можно найти на Huggingface или ModelScope

Модель диффузии

Qwen_image_distill

  • Оригинальный автор дистиллированной версии рекомендует 15 шагов cfg 1.0
  • Тесты показывают, что эта дистиллированная версия хорошо работает при 10 шагах cfg 1.0; выбирайте euler или res_multistep в зависимости от желаемого типа изображения

LoRA

Текстовый энкодер

VAE

Расположение хранения моделей

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 diffusion_models/
│   │   ├── qwen_image_fp8_e4m3fn.safetensors
│   │   └── qwen_image_distill_full_fp8_e4m3fn.safetensors ## Дистиллированная версия
│   ├── 📂 loras/
│   │   └── Qwen-Image-Lightning-8steps-V1.0.safetensors   ## Модель LoRA ускорения за 8 шагов
│   ├── 📂 vae/
│   │   └── qwen_image_vae.safetensors
│   └── 📂 text_encoders/
│       └── qwen_2.5_vl_7b_fp8_scaled.safetensors

3. Пошаговое выполнение рабочего процесса

Диаграмма шагов

  1. Убедитесь, что узел Load Diffusion Model загружает qwen_image_fp8_e4m3fn.safetensors
  2. Убедитесь, что узел Load CLIP загружает qwen_2.5_vl_7b_fp8_scaled.safetensors
  3. Убедитесь, что узел Load VAE загружает qwen_image_vae.safetensors
  4. Убедитесь, что размеры изображения установлены в узле EmptySD3LatentImage
  5. Установите подсказки в узле CLIP Text Encoder; на данный момент протестирована поддержка как минимум следующих языков: английский, китайский, корейский, японский, итальянский и т.д.
  6. Чтобы включить LoRA ускорения lightx2v за 8 шагов, выберите его и используйте Ctrl + B для включения узла, а также измените настройки Ksampler в соответствии с параметрами в позиции 8
  7. Нажмите кнопку Queue или используйте сочетание клавиш Ctrl(cmd) + Enter, чтобы запустить рабочий процесс
  8. Параметры настройки KSampler, соответствующие различным версиям моделей и рабочих процессов

Похоже, что дистиллированная версия модели и LoRA ускорения lightx2v за 8 шагов не могут использоваться одновременно; вы можете протестировать конкретные комбинации параметров, чтобы проверить, возможно ли совместное использование

Рабочий процесс Qwen-Image версии GGUF ComfyUI

Версия GGUF более дружелюбна для пользователей с низким объемом VRAM, и в некоторых конфигурациях весов вам потребуется около 8 ГБ VRAM для запуска Qwen-Image

Справка по использованию VRAM:

Рабочий процессИспользование VRAMПервая генерацияПоследующие генерации
qwen-image-Q4_K_S.gguf56%≈ 135s≈ 77s
С LoRA за 8 шагов56%≈ 100s≈ 45s

Адрес модели: Qwen-Image-gguf

1. Обновление или установка пользовательских узлов

Для использования версии GGUF необходимо установить или обновить плагин ComfyUI-GGUF

Пожалуйста, обратитесь к Как установить пользовательские узлы ComfyUI или выполните поиск и установку через Manager

2. Скачивание рабочего процесса

Рабочий процесс Qwen-Image GGUF

3. Скачивание модели

Версия GGUF использует только модель диффузии, отличную от других

Пожалуйста, посетите https://huggingface.co/city96/Qwen-Image-gguf, чтобы скачать любой вес; как правило, больший размер файла означает лучшее качество, но также требует больше VRAM. В этом руководстве я буду использовать следующую версию:

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 diffusion_models/
│   │   └── qwen-image-Q4_K_S.gguf # Или любую другую версию, которую вы выберете

3. Пошаговое выполнение рабочего процесса

Диаграмма шагов

  1. Убедитесь, что узел Unet Loader(GGUF) загружает qwen-image-Q4_K_S.gguf или любую другую версию, которую вы скачали
    • Убедитесь, что ComfyUI-GGUF установлен и обновлен
  2. Для LightX2V 8Steps LoRA по умолчанию не включено, вы можете выбрать его и использовать Ctrl+B для включения узла
  3. Если LoRA за 8 шагов не включено, количество шагов по умолчанию равно 20; если вы включите LoRA за 8 шагов, установите его на 8
  4. Здесь приведена справка по установке соответствующего количества шагов
  5. Нажмите кнопку Queue или используйте сочетание клавиш Ctrl(cmd) + Enter, чтобы запустить рабочий процесс

Рабочий процесс версии Nunchaku Qwen-Image

Адрес модели: nunchaku-qwen-image Адрес пользовательского узла: https://github.com/nunchaku-tech/ComfyUI-nunchaku

Ожидается поддержка Nunchaku

Qwen Image ControlNet

Рабочий процесс Qwen Image ControlNet DiffSynth-ControlNets Model Patches

Эта модель на самом деле не является controlnet, а представляет собой Model patch, который поддерживает три различных режима управления: canny, depth и inpaint.

Оригинальный адрес модели: DiffSynth-Studio/Qwen-Image ControlNet Адрес рехостинга Comfy Org: Qwen-Image-DiffSynth-ControlNets/model_patches

1. Рабочий процесс и входные изображения

Скачайте изображение ниже и перетащите его в ComfyUI для загрузки соответствующего рабочего процесса workflow

Скачайте изображение ниже как входное:

input

2. Ссылки на модели

Другие модели соответствуют базовому рабочему процессу Qwen-Image. Вам нужно только скачать следующие модели и сохранить их в папке ComfyUI/models/model_patches:

3. Инструкции по использованию рабочего процесса

В настоящее время diffsynth имеет три модели патчей: модели Canny, Depth и Inpaint.

Если вы впервые используете рабочие процессы, связанные с ControlNet, вам нужно понимать, что изображения, используемые для управления, должны быть предварительно обработаны в поддерживаемых форматах изображений, прежде чем они могут быть использованы и распознаны моделью.

Иллюстрация типов ввода

  • Canny: Обработанный canny, контуры линейного рисунка
  • Depth: Предварительно обработанная карта глубины, показывающая пространственные отношения
  • Inpaint: Требуется использование маски для отметки областей, которые нужно перерисовать

Поскольку эта модель патча разделена на три различные модели, вам нужно выбрать правильный тип предварительной обработки при вводе, чтобы обеспечить правильную предварительную обработку изображения.

Инструкции по использованию модели Canny ControlNet

Рабочий процесс Canny

  1. Убедитесь, что загружен qwen_image_canny_diffsynth_controlnet.safetensors
  2. Загрузите входное изображение для последующей обработки
  3. Узел Canny является нативным узлом предварительной обработки, который будет предварительно обрабатывать входное изображение в соответствии с вашими установленными параметрами для управления генерацией
  4. При необходимости вы можете изменить параметр strength узла QwenImageDiffsynthControlnet для управления силой управления линейным рисунком
  5. Нажмите кнопку Run или используйте сочетание клавиш Ctrl(cmd) + Enter для запуска рабочего процесса

Для использования qwen_image_depth_diffsynth_controlnet.safetensors вам нужно предварительно обработать изображение в карту глубины, заменив часть image processing. Для этого использования, пожалуйста, обратитесь к методу обработки InstantX в этом документе. Другие части аналогичны использованию модели Canny.

Инструкции по использованию модели Inpaint ControlNet Рабочий процесс Inpaint

Для модели Inpaint требуется использование редактора масок для рисования маски и использования ее в качестве входного условия управления.

  1. Убедитесь, что ModelPatchLoader загружает модель qwen_image_inpaint_diffsynth_controlnet.safetensors
  2. Загрузите изображение и используйте редактор масок для рисования маски. Вам нужно подключить выход mask соответствующего узла Load Image к входу mask QwenImageDiffsynthControlnet, чтобы обеспечить загрузку соответствующей маски
  3. Используйте сочетание клавиш Ctrl-B для установки оригинального Canny в рабочем процессе в режим обхода, чтобы соответствующая обработка узла Canny не вступила в силу
  4. В кодировщике текста CLIP введите стиль, который вы хотите изменить для замаскированной части
  5. При необходимости вы можете изменить параметр strength узла QwenImageDiffsynthControlnet для управления соответствующей силой управления
  6. Нажмите кнопку Run или используйте сочетание клавиш Ctrl(cmd) + Enter для запуска рабочего процесса

Рабочий процесс Qwen Image Union ControlNet LoRA

Оригинальный адрес модели: DiffSynth-Studio/Qwen-Image-In-Context-Control-Union Адрес рехостинга Comfy Org: qwen_image_union_diffsynth_lora.safetensors: LoRA управления структурой изображения, поддерживающий canny, depth, pose, lineart, softedge, normal, openpose

1. Рабочий процесс и входные изображения

Скачайте изображение ниже и перетащите его в ComfyUI для загрузки рабочего процесса workflow

Скачайте изображение ниже как входное:

workflow

2. Ссылки на модели

Скачайте следующую модель. Поскольку это модель LoRA, она должна быть сохранена в папке ComfyUI/models/loras/:

3. Инструкции рабочего процесса

Эта модель представляет собой унифицированный LoRA управления, который поддерживает canny, depth, pose, lineart, softedge, normal, openpose и другие элементы управления. Поскольку многие нативные узлы предварительной обработки изображений не полностью поддерживаются, вам может понадобиться что-то вроде comfyui_controlnet_aux для завершения другой предварительной обработки изображений.

LoRA унифицированного управления

  1. Убедитесь, что LoraLoaderModelOnly правильно загружает модель qwen_image_union_diffsynth_lora.safetensors
  2. Загрузите входное изображение
  3. При необходимости вы можете настроить параметры узла Canny. Поскольку различные входные изображения требуют различных настроек параметров для получения лучших результатов предварительной обработки изображений, вы можете попробовать настроить соответствующие значения параметров для получения большего/меньшего количества деталей
  4. Нажмите кнопку Run или используйте сочетание клавиш Ctrl(cmd) + Enter для запуска рабочего процесса

Для других типов управления вам также нужно заменить часть обработки изображения.