阿里巴巴通义实验室发布 Z-Image-Turbo - 高效6B参数图像生成模型
2025/11/27
阿里巴巴通义实验室发布 Z-Image-Turbo - 高效6B参数图像生成模型
2025年11月27日,阿里巴巴通义实验室(Tongyi Lab)正式发布了新一代高效图像生成模型 Z-Image-Turbo。该模型以仅6B的参数规模,实现了与20B以上参数闭源旗舰模型相媲美的性能,特别擅长生成高保真度的照片级真实人像。
主要特性
高效的参数架构
Z-Image-Turbo 采用可扩展单流 DiT(S3-DiT)架构,将文本、视觉语义 token 和图像 VAE token 在序列级别进行拼接,作为统一的输入流,最大化参数效率。这种设计使得模型能够在保持高质量输出的同时,大幅降低计算资源需求。
消费级显卡友好
这是 Z-Image-Turbo 最吸引人的特点之一:
- 显存占用严格控制在 16GB 以内
- 在 RTX 4090 上仅需 2.3秒 即可生成 1024×1024 分辨率图像
- 在 NVIDIA RTX Pro 6000 Blackwell 上生成 2K 图像仅需 4.8秒
- 仅需 8步采样 即可生成高质量图像
- 甚至在 RTX 3060 6G 版本上也能运行
出色的文本渲染能力
Z-Image-Turbo 在中英文文本渲染方面表现优异,能够:
- 准确渲染复杂的中英文文本
- 保持人脸真实性和画面美感
- 效果媲美顶尖闭源模型
照片级真实人像
模型特别擅长生成:
- 高保真度的人物肖像
- 自然的皮肤纹理和光影效果
- 电影级的打光和构图
- 各种风格的人像摄影效果
在 ComfyUI 中使用
Z-Image-Turbo 已经支持在 ComfyUI 中使用。你需要:
- 将 ComfyUI 更新到最新版本
- 下载对应的模型文件
- 导入工作流即可开始使用
模型文件
你需要下载以下模型文件并放置到对应目录:
文本编码器(text_encoders)
扩散模型(diffusion_models)
VAE
文件存放位置
📂 ComfyUI/
├── 📂 models/
│ ├── 📂 text_encoders/
│ │ └── qwen_3_4b.safetensors
│ ├── 📂 diffusion_models/
│ │ └── z_image_turbo_bf16.safetensors
│ └── 📂 vae/
│ └── ae.safetensorsComfyUI 工作流
你可以从以下链接下载官方工作流模板:
未来计划
研究团队计划发布完整的非蒸馏基础模型,届时将支持社区驱动的微调、自定义工作流和更广泛的开源生态开发。
相关链接
- HuggingFace 模型:https://huggingface.co/Tongyi-MAI/Z-Image-Turbo
- Comfy-Org 模型:https://huggingface.co/Comfy-Org/z_image_turbo
- ComfyUI Blog:https://blog.comfy.org/p/z-image-turbo-in-comfyui-realism
- 官方网站:https://z-image.ai