Skip to content
ComfyUI Wiki
帮助构建更好的 ComfyUI 知识库 成为赞助者
新闻Qwen-Image 在 ComfyUI 获得原生支持

Qwen-Image 在 ComfyUI 获得原生支持

Qwen-Image 示例图像

Qwen-Image 为 20B 参数的 MMDiT(多模态扩散变换器)图像生成模型,主打复杂文本渲染与精细图像编辑,已开源并采用 Apache-2.0 许可。近期,其在 ComfyUI 中实现原生支持,用户可直接通过模板进行体验。

相关链接:

模型亮点

基于项目页信息,模型在文本相关场景与编辑一致性方面表现突出,并具备较全面的生成与理解能力:

主要特性

  • 复杂文本渲染:在英文与中文等多语言文本渲染上保留字体细节与排版一致性,适合包含标题、标语、表格/版式信息的图像场景
  • 精细图像编辑:支持风格迁移、物体增删、细节增强、图中可编辑文字、人物姿态调整等操作,强调输出的一致性与可控性
  • 通用生成能力:从写实到印象派、从动漫到极简设计,能根据提示在多种风格间自然切换
  • 图像理解相关任务:涵盖目标检测、语义分割、深度与边缘(Canny)估计、新视角合成与超分辨等能力,为创作与编辑提供辅助
  • 生态与可扩展性:项目更新显示已支持多种 LoRA(如 MajicBeauty 等),并提供多 GPU 推理/队列管理的本地部署样例,便于规模化与高并发场景

目前 ComfyUI 官方提供的版本如下

  • Qwen-Image_bf16(约 40.9 GB)
  • Qwen-Image_fp8(约 20.4 GB)
  • 非官方蒸馏版本(更少步数可生成)

这些模型都可以在 ComfyUI找到 Hugging Face - Comfy-Org/Qwen-Image_ComfyUIModelScope - Comfy-Org/Qwen-Image_ComfyUI

性能表现

下面是 ComfyUI Wiki 在撰写官方文档时测试的性能数据,使用 RTX 4090D 24GB 进行的测试结果:

Qwen-Image_fp8 版本:

  • 显存占用:86%
  • 生成时间:首次 94 秒,第二次 71 秒

Qwen-Image_bf16 版本:

  • 显存占用:96%
  • 生成时间:首次 295 秒,第二次 131 秒

内容来源与延伸阅读