Qwen-Image 在 ComfyUI 获得原生支持

最后更新：2025年8月5日ComfyUI Wikinews

Qwen-Image 是 20B 参数 MMDiT 图像生成模型，主打复杂文本渲染与精细编辑，现已可在 ComfyUI 使用。本文概览其核心能力、许可与资源链接。

Qwen-Image 示例图像

Qwen-Image 为 20B 参数的 MMDiT（多模态扩散变换器）图像生成模型，主打复杂文本渲染与精细图像编辑，已开源并采用 Apache-2.0 许可。近期，其在 ComfyUI 中实现原生支持，用户可直接通过模板进行体验。

相关链接:

模型亮点

基于项目页信息，模型在文本相关场景与编辑一致性方面表现突出，并具备较全面的生成与理解能力：

主要特性

复杂文本渲染：在英文与中文等多语言文本渲染上保留字体细节与排版一致性，适合包含标题、标语、表格/版式信息的图像场景
精细图像编辑：支持风格迁移、物体增删、细节增强、图中可编辑文字、人物姿态调整等操作，强调输出的一致性与可控性
通用生成能力：从写实到印象派、从动漫到极简设计，能根据提示在多种风格间自然切换
图像理解相关任务：涵盖目标检测、语义分割、深度与边缘（Canny）估计、新视角合成与超分辨等能力，为创作与编辑提供辅助
生态与可扩展性：项目更新显示已支持多种 LoRA（如 MajicBeauty 等），并提供多 GPU 推理/队列管理的本地部署样例，便于规模化与高并发场景

目前 ComfyUI 官方提供的版本如下

Qwen-Image_bf16（约 40.9 GB）
Qwen-Image_fp8（约 20.4 GB）
非官方蒸馏版本（更少步数可生成）

这些模型都可以在 ComfyUI找到 Hugging Face - Comfy-Org/Qwen-Image_ComfyUI｜ModelScope - Comfy-Org/Qwen-Image_ComfyUI

性能表现

下面是 ComfyUI Wiki 在撰写官方文档时测试的性能数据，使用 RTX 4090D 24GB 进行的测试结果：

Qwen-Image_fp8 版本：

显存占用：86%
生成时间：首次 94 秒，第二次 71 秒

Qwen-Image_bf16 版本：

显存占用：96%
生成时间：首次 295 秒，第二次 131 秒

内容来源与延伸阅读

项目页（含特性、新闻与部署信息）：Qwen-Image GitHub
技术报告（arXiv）：Qwen-Image Technical Report
模型资源（社区镜像）：Comfy-Org/Qwen-Image_ComfyUI｜ModelScope - Comfy-Org/Qwen-Image_ComfyUI
延伸阅读（教程）：ComfyUI 文档 · Qwen-Image 原生工作流

评论

使用 GitHub 登录后即可参与讨论。

评论加载中…

Qwen-Image 在 ComfyUI 获得原生支持 | ComfyUI Wiki