Qwen-Image 在 ComfyUI 获得原生支持
2025/08/05
Qwen-Image 在 ComfyUI 获得原生支持
Qwen-Image 为 20B 参数的 MMDiT(多模态扩散变换器)图像生成模型,主打复杂文本渲染与精细图像编辑,已开源并采用 Apache-2.0 许可。近期,其在 ComfyUI 中实现原生支持,用户可直接通过模板进行体验。
相关链接:
模型亮点
基于项目页信息,模型在文本相关场景与编辑一致性方面表现突出,并具备较全面的生成与理解能力:
主要特性
- 复杂文本渲染:在英文与中文等多语言文本渲染上保留字体细节与排版一致性,适合包含标题、标语、表格/版式信息的图像场景
- 精细图像编辑:支持风格迁移、物体增删、细节增强、图中可编辑文字、人物姿态调整等操作,强调输出的一致性与可控性
- 通用生成能力:从写实到印象派、从动漫到极简设计,能根据提示在多种风格间自然切换
- 图像理解相关任务:涵盖目标检测、语义分割、深度与边缘(Canny)估计、新视角合成与超分辨等能力,为创作与编辑提供辅助
- 生态与可扩展性:项目更新显示已支持多种 LoRA(如 MajicBeauty 等),并提供多 GPU 推理/队列管理的本地部署样例,便于规模化与高并发场景
目前 ComfyUI 官方提供的版本如下
- Qwen-Image_bf16(约 40.9 GB)
- Qwen-Image_fp8(约 20.4 GB)
- 非官方蒸馏版本(更少步数可生成)
这些模型都可以在 ComfyUI找到 Hugging Face - Comfy-Org/Qwen-Image_ComfyUI|ModelScope - Comfy-Org/Qwen-Image_ComfyUI
性能表现
下面是 ComfyUI Wiki 在撰写官方文档时测试的性能数据,使用 RTX 4090D 24GB 进行的测试结果:
Qwen-Image_fp8 版本:
- 显存占用:86%
- 生成时间:首次 94 秒,第二次 71 秒
Qwen-Image_bf16 版本:
- 显存占用:96%
- 生成时间:首次 295 秒,第二次 131 秒
内容来源与延伸阅读
- 项目页(含特性、新闻与部署信息):Qwen-Image GitHub
- 技术报告(arXiv):Qwen-Image Technical Report
- 模型资源(社区镜像):Comfy-Org/Qwen-Image_ComfyUI|ModelScope - Comfy-Org/Qwen-Image_ComfyUI
- 延伸阅读(教程):ComfyUI 文档 · Qwen-Image 原生工作流