Qwen-Image-Layered ComfyUI 工作流使用指南

Qwen-Image-Layered 是由阿里巴巴通义千问团队开发的图像分层编辑生成模型，基于 Qwen-Image 模型进行开发，采用 Apache 2.0 开源许可证。该模型可以将图像分解为多个 RGBA 图层，每个图层可以独立进行编辑操作，而不会影响图像中的其他内容。这种物理隔离的方式使得图像编辑更加精确和一致。

与传统的图像编辑方式不同，Qwen-Image-Layered 通过将图像分解为多个独立的 RGBA 图层，实现了真正的图层化编辑体验。每个图层都包含完整的颜色信息和透明度信息，使得图层之间的合成更加自然。这种设计使得用户可以对图像中的不同部分进行精确控制，而无需担心编辑操作会影响到其他区域。

核心特性：

图层分解能力：可以将图像分解成多个独立的 RGBA 图层，每个图层包含特定的语义或结构组件，比如前景物体、背景元素、文字等
独立图层编辑：支持对每个图层进行重新着色、内容替换、文字修改、删除对象、调整大小和移动位置等操作，所有操作只影响目标图层
灵活的图层数量：不限制固定的图层数量，可以根据需要将图像分解为不同数量的图层（例如 3 个、4 个、8 个或更多）
递归分解：支持递归分解功能，任何一个图层都可以进一步分解为更多的子图层，为复杂的编辑需求提供了更大的灵活性

性能提示：该模型的生成速度相对较慢，运行时间较长。在 RTX Pro 6000 96GB VRAM 上，峰值显存占用可以达到 45GB, 1024 px 生成时间需要 120s。根据一些 RTX 4090 用户的反馈，该工作流几乎会占满所有显存。建议显存较小的用户使用 FP8 版本以降低显存占用。

Qwen-Image-Layered ComfyUI 原生工作流指南

Qwen-Image-Layered 已经在 ComfyUI 中获得原生支持，用户可以直接在 ComfyUI 中使用该模型进行图像分层编辑。无需安装额外的自定义节点，只需更新到最新版本的 ComfyUI 即可使用。

1. 工作流文件

更新 ComfyUI 后你可以从模板中找到工作流文件，或者将下面的工作流拖入 ComfyUI 中加载

2. 模型下载

所有模型均可在 Huggingface 或者魔搭找到

text_encoders

qwen_2.5_vl_7b_fp8_scaled.safetensors

diffusion_models

qwen_image_layered_bf16.safetensors

vae

qwen_image_layered_vae.safetensors

模型保存位置

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 text_encoders/
│   │      └── qwen_2.5_vl_7b_fp8_scaled.safetensors
│   ├── 📂 diffusion_models/
│   │      └── qwen_image_layered_bf16.safetensors
│   └── 📂 vae/
│          └── qwen_image_layered_vae.safetensors

3. FP8 版本

默认情况下我们使用的是 bf16 版本，该版本需要较高的显存。如果你的显存有限，可以使用 fp8 版本来降低显存占用：

qwen_image_layered_fp8mixed.safetensors

使用 fp8 版本时，需要在工作流中的子图内的 Load Diffusion model 节点中更新模型路径，将其指向 fp8 版本的模型文件。

fp8 版本可以在保持较好生成质量的同时显著降低显存占用，适合显存较小的用户使用。

4. 工作流设置

采样器设置

该模型的生成速度相对较慢，运行时间较长。原始采样设置建议为步数 50 步，CFG 值为 4.0，这会使生成时间至少增加一倍。如果你需要更快的生成速度，可以适当降低步数，但可能会影响生成质量。建议在首次使用时保持默认设置，以获得最佳的生成效果。

输入尺寸

对于输入尺寸，640 像素是推荐值，这个尺寸在生成质量和速度之间取得了良好的平衡。如果需要高分辨率输出，可以使用 1024 像素，但需要注意，太大的尺寸会导致生成时间显著增加，同时也会占用更多的显存。建议根据你的硬件配置和实际需求来选择合适的尺寸。

提示词（可选）

文本提示词用于描述输入图像的整体内容，包括可能被部分遮挡的元素（例如，你可以指定被前景对象遮挡的文字）。提示词并不是用来明确控制单个图层的语义内容，而是帮助模型理解图像的整体结构。

Qwen-Image-Layered GGUF 版本工作流

GGUF 版本工作流待更新，敬请期待。