Qwen-Image-Layered 发布 - 支持图像分层编辑的生成模型
2025/12/19
Qwen-Image-Layered ComfyUI 工作流使用指南
Qwen-Image-Layered 是由阿里巴巴通义千问团队开发的图像分层编辑生成模型,基于 Qwen-Image 模型进行开发,采用 Apache 2.0 开源许可证。该模型可以将图像分解为多个 RGBA 图层,每个图层可以独立进行编辑操作,而不会影响图像中的其他内容。这种物理隔离的方式使得图像编辑更加精确和一致。
与传统的图像编辑方式不同,Qwen-Image-Layered 通过将图像分解为多个独立的 RGBA 图层,实现了真正的图层化编辑体验。每个图层都包含完整的颜色信息和透明度信息,使得图层之间的合成更加自然。这种设计使得用户可以对图像中的不同部分进行精确控制,而无需担心编辑操作会影响到其他区域。
核心特性:
- 图层分解能力:可以将图像分解成多个独立的 RGBA 图层,每个图层包含特定的语义或结构组件,比如前景物体、背景元素、文字等
- 独立图层编辑:支持对每个图层进行重新着色、内容替换、文字修改、删除对象、调整大小和移动位置等操作,所有操作只影响目标图层
- 灵活的图层数量:不限制固定的图层数量,可以根据需要将图像分解为不同数量的图层(例如 3 个、4 个、8 个或更多)
- 递归分解:支持递归分解功能,任何一个图层都可以进一步分解为更多的子图层,为复杂的编辑需求提供了更大的灵活性
性能提示:该模型的生成速度相对较慢,运行时间较长。在 RTX Pro 6000 96GB VRAM 上,峰值显存占用可以达到 45GB, 1024 px 生成时间需要 120s。根据一些 RTX 4090 用户的反馈,该工作流几乎会占满所有显存。建议显存较小的用户使用 FP8 版本以降低显存占用。
Qwen-Image-Layered ComfyUI 原生工作流指南
Qwen-Image-Layered 已经在 ComfyUI 中获得原生支持,用户可以直接在 ComfyUI 中使用该模型进行图像分层编辑。无需安装额外的自定义节点,只需更新到最新版本的 ComfyUI 即可使用。
1. 工作流文件
更新 ComfyUI 后你可以从模板中找到工作流文件,或者将下面的工作流拖入 ComfyUI 中加载
2. 模型下载
所有模型均可在 Huggingface 或者 魔搭 找到
text_encoders
diffusion_models
vae
模型保存位置
📂 ComfyUI/
├── 📂 models/
│ ├── 📂 text_encoders/
│ │ └── qwen_2.5_vl_7b_fp8_scaled.safetensors
│ ├── 📂 diffusion_models/
│ │ └── qwen_image_layered_bf16.safetensors
│ └── 📂 vae/
│ └── qwen_image_layered_vae.safetensors3. FP8 版本
默认情况下我们使用的是 bf16 版本,该版本需要较高的显存。如果你的显存有限,可以使用 fp8 版本来降低显存占用:
使用 fp8 版本时,需要在工作流中的 子图 内的 Load Diffusion model 节点中更新模型路径,将其指向 fp8 版本的模型文件。
fp8 版本可以在保持较好生成质量的同时显著降低显存占用,适合显存较小的用户使用。
4. 工作流设置
采样器设置
该模型的生成速度相对较慢,运行时间较长。原始采样设置建议为步数 50 步,CFG 值为 4.0,这会使生成时间至少增加一倍。如果你需要更快的生成速度,可以适当降低步数,但可能会影响生成质量。建议在首次使用时保持默认设置,以获得最佳的生成效果。
输入尺寸
对于输入尺寸,640 像素是推荐值,这个尺寸在生成质量和速度之间取得了良好的平衡。如果需要高分辨率输出,可以使用 1024 像素,但需要注意,太大的尺寸会导致生成时间显著增加,同时也会占用更多的显存。建议根据你的硬件配置和实际需求来选择合适的尺寸。
提示词(可选)
文本提示词用于描述输入图像的整体内容,包括可能被部分遮挡的元素(例如,你可以指定被前景对象遮挡的文字)。提示词并不是用来明确控制单个图层的语义内容,而是帮助模型理解图像的整体结构。
Qwen-Image-Layered GGUF 版本工作流
GGUF 版本工作流待更新,敬请期待。